DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Artificial Analysis

Tekoälymallien ja isännöintipalveluntarjoajien riippumaton analyysi - valitse paras malli ja API-palveluntarjoaja käyttötapaukseesi

Alibaba on julkaissut 4 uutta Qwen3.5-mallia kooltaan 0,8B:stä 9B:hen. 9B (Päättely, 32 älykkyysindeksissä) on älykkäin malli 10B-parametrilla, ja 4B (Päättely, 27) älykkäin alle 5B, mutta molemmat käyttävät 200M+ lähtötokeneita Älykkyysindeksin ajamiseen @Alibaba_Qwen on laajentanut Qwen3.5-perhettä neljällä pienemmällä tiheällä mallilla: 9B (Päättely, 32 älykkyysindeksissä), 4B (Päättely, 27), 2B (Päättely, 16) ja 0,8B (Päättely, 9). Nämä täydentävät tämän kuun alussa julkaistuja suurempia 397B-, 27B-, 122B- ja 35B A3B-malleja. Kaikki mallit ovat Apache 2.0 -lisensoituja, tukevat 262K-kontekstia, sisältävät natiivin näkötuen ja käyttävät samaa yhtenäistä ajattelu/ei-ajattelua -hybridilähestymistapaa kuin muu Qwen3.5-perhe Keskeiset vertailutulokset päättelyvarianteille: ➤ 9B ja 4B ovat älykkäimmät mallit omissa kokoluokissaan, edellä kaikkia muita malleja 10B-parametrilla. Qwen3.5 9B (32) saa noin kaksinkertaisen pistemäärän seuraavaksi lähimpiin alle 10B-malleihin verrattuna: Falcon-H1R-7B (16) ja NVIDIA Nemotron Nano 9B V2 (Perustelu, 15). Qwen3.5 4B (27) voittaa kaikki nämä pisteet, vaikka sillä on noin puolet parametreista. Kaikki neljä pientä Qwen3.5-mallia ovat Pareto-rajalla Intelligence vs. Total Parameters -taulukossa ➤ Qwen3.5-sukupolvi edustaa materiaaliälykkyyden nousua Qwen3:een verrattuna kaikissa alle 10B-mallien kokoissa, ja suurempia parannuksia saavutetaan suuremmilla kokonaisparametrimäärillä. Päättelyvarianttien vertailu: Qwen3.5 9B (32) on 15 pistettä edellä Qwen3 VL 8B:tä (17), 4B (27) saa 9 pistettä Qwen3 4B 2507:ään (18), 2B (16) on 3 pistettä edellä Qwen3 1.7B:tä (arviolta 13), ja 0.8B (9) saa 2.5 pistettä Qwen3:n 0.6B:hen (6.5). ➤ Kaikki neljä mallia käyttävät 230–390M output tokeneita Intelligence Indexin ajamiseen, mikä on huomattavasti enemmän kuin sekä suuremmat Qwen3.5-sisarukset että Qwen3:n edeltäjät. Qwen3.5 2B käytti ~390M lähtötokeneita, 4B ~240M, 0.8B ~230M, ja 9B ~260M. Taustaksi: paljon suurempi Qwen3.5 27B käytti 98M:ää ja 397B:n lippulaiva 86M:tä. Nämä tokenien määrät ylittävät myös useimmat rajamallit: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) ja GLM-5 Reasoning (109M) ➤ AA-Kaikkitietävyys on suhteellinen heikkous, hallusinaatioiden esiintyvyys on 80–82 % 4B:llä ja 9B:llä. Qwen3.5 4B saa AA-Omnisciencessa -pisteet -57, hallusinaatioprosentti 80 % ja tarkkuus 12,8 %. Qwen3.5 9B saa pisteet -56, hallusinaatiot 82 % ja tarkkuus 14,7 %. Nämä ovat hieman parempia kuin Qwen3:n edeltäjät (Qwen3 4B 2507: -61, 84 % hallusinaatio, 12,7 % tarkkuus), ja parannus johtuu pääasiassa alhaisemmista hallusinaatiotaajuuksista, ei korkeammasta tarkkuudesta. ➤ Qwen3.5:n alle 10B-mallit yhdistävät korkean älykkyyden ja alkuperäisen näön mittakaavassa, jota ei aiemmin ollut saatavilla. MMMU-Prossa (monimodaalinen päättely) Qwen3.5 9B saa 69,2 % ja 4B 65,4 %, edellä Qwen3 VL 8B (56,6 %), Qwen3 VL 4B (52,0 %) ja Ministry 3 8B (46,0 %). Qwen3.5 0.8B saa 25,8 %, mikä on merkittävää alle 1B-mallissa Muuta tietoa: ➤ Konteksti-ikkuna: 262K tokenia ➤ Lisenssi: Apache 2.0 ➤ Kvantisointi: Natiivipainot ovat BF16. Alibaba ei ole julkaissut ensimmäisen osapuolen GPTQ-Int4-kvantisointeja näille pienille malleille, mutta ne ovat julkaisseet aiemmin julkaistuihin Qwen3.5-perheen suuremmille malleille (27B, 35B-A3B, 122B-A10B, 397B-A17B). 4-bittisessä kvantisaatiossa kaikki neljä mallia ovat saatavilla kuluttajalaitteilla ➤ Saatavuus: Julkaisuhetkellä näitä malleja ei ole ensimmäisen tai kolmannen osapuolen palvelimettomia API-rajapintoja, jotka isännöivät näitä malleja

Alibaba on laajentanut Qwen3.5-malliperhettään kolmella uudella mallilla – 27B-malli erottuu erinomaisesti, saaden 42 pistettä Artificial Analysis Intelligence Indexissä ja vastaten avoimia malleja, jotka ovat 8–25-kertaisia kokonsa @Alibaba_Qwen on laajentanut Qwen3.5-perhettä kolmella uudella mallilla yhdessä tämän kuun alussa julkaistun 397B-lippulaivamallin kanssa: Qwen3.5 27B (Tiheä, 42 pistettä Intelligence Indexissä), Qwen3.5 122B A10B (MoE, 42) ja Qwen3.5 35B A3B (MoE, 37). Kaksi MoE (Mixture-of-Experts) -mallia aktivoivat vain murto-osan kokonaisparametreista per eteenpäinsyöttö (10B 122B:stä ja ~3B 35B:stä). Älykkyysindeksi on synteesimittarimme, joka sisältää 10 arviointia, jotka kattavat yleisen päättelyn, agenttitehtävät, koodauksen ja tieteellisen päättelyn. Kaikki mallit ovat Apache 2.0 -lisensoituja, tukevat natiivisti 262K-kontekstia ja palaavat alkuperäisen Qwen3:n yhtenäiseen ajattelu/ei-ajattelu-hybridiarkkitehtuuriin, kun Alibaba siirtyi erottamaan Instruct- ja Reasoning-tarkistuspisteet Qwen3 2507 -päivitysten myötä. Keskeiset vertailutulokset päättelyvarianteille: ➤ Qwen3.5 27B saa 42 pistettä Älykkyysindeksissä ja on älykkäin malli alle 230B. Lähin samankokoinen malli on GLM-4.7-Flash (yhteensä 31B, aktiivinen 3B), joka saa 30 pistettä. Vastaavan älykkyyden avoimet painomallit ovat kokonaisparametreiltaan 8–25 kertaa suurempia: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) ja GLM-4.7 (357B, 42). FP8-tarkkuudella mallipainojen tallentamiseen kuluu ~27GB, kun taas 4-bittisessä kvantisoinnissa voi käyttää kannettavan laadukasta laitteistoa, jossa on 16GB+ RAM-levyä ➤ Qwen3.5 27B saa pisteet 1205 GDPval-AA:ssa (Agentic Real-World Work Tasks), asettaen sen suurempien mallien rinnalle. Taustaksi: MiniMax-M2.5 saa 1206, GLM-4.7 (Päättely) 1200 ja DeepSeek V3.2 (Päättely) 1194. Tämä on erityisen merkittävää 27B-parametrimallissa ja viittaa vahvaan agenttiseen kapasiteettiin sen kokoon nähden. GDPval-AA testaa malleja todellisissa tehtävissä 44 ammatissa ja 9 päätoimialalla ➤ AA-Kaikkitietävyys on edelleen suhteellinen heikkous Qwen3.5-perheessä, mikä johtuu pääasiassa alhaisemmasta tarkkuudesta eikä hallusinaatioiden määrästä. Qwen3.5 27B saa -42 pisteitä AA-Omnisciencessa, verrattavissa MiniMax-M2.5:een (-40), mutta jää DeepSeek V3.2:n (-21) ja GLM-4.7:n (-35) jälkeen. Vaikka Qwen3.5 27B:n hallusinaatioprosentti (80 %) on alhaisempi kuin vastaavilla (GLM-4.7 90 %, MiniMax 89 %, DeepSeek 82 %), sen tarkkuus on myös alhaisempi, 21 % verrattuna DeepSeek V3.2:n 34 %:iin ja GLM-4.7:n 29 %:iin. Tämä johtuu todennäköisesti mallin koosta – olemme yleisesti havainneet, että mallit, joissa on enemmän kokonaisparametreja, suoriutuvat paremmin AA-Omnisciencessa, koska laajempi tietopalautus hyötyy suuremmista parametrimääristä ➤ Qwen3.5 27B on yhtä älykäs kuin Qwen3.5 122B A10B. 122B A10B on asiantuntijoiden yhdistelmämalli, joka aktivoi vain 10B 122B:n kokonaisparametreista per eteenpäin suuntautuva syöttö. 27B-malli johtaa GDPval-AA:ssa (1205 Elo vs 1145 Elo) ja hieman TerminalBenchissä (+1,5 p.p.), kun taas 122B-malli johtaa SciCodessa (+2,5 p.p.), HLE:ssä (+1,2 p.p.), ja hallusinaatioprosentti on alhaisempi (Omniscience -40 vs -42) ➤ Qwen3.5 35B A3B (Päättely, 37) on älykkäin malli ~3B aktiivisilla parametreilla, 7 pistettä edellä GLM-4.7-Flashia (30). Muita malleja tässä ~3B aktiivisessa kategoriassa ovat Qwen3 Coder Next (yhteensä 80B 28), Qwen3 Next 80B A3B (27) ja NVIDIA Nemotron 3 Nano 30B A3B (24) ➤ Qwen3.5 27B käytti 98M output tokenia Intelligence Indexin ajamiseen, kustannus ~$299 Alibaba Cloud API:n kautta. Tämä on huomattavasti korkea tokenien käyttö verrattuna malleihin, joiden älykkyys on samankaltainen: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) ja jopa suurempi Qwen3.5 397B (86M). Muuta tietoa: ➤ Konteksti-ikkuna: 262K tokenia (laajennettavissa 1M:ään YaRN:n kautta) ➤ Lisenssi: Apache 2.0 ➤ API-hinnoittelu (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M sisään/ulostulotokenia

Johtavat

Rankkaus

Suosikit