分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Artificial Analysis

AIモデルとホスティングプロバイダーの独立した分析 - ユースケースに最適なモデルとAPIプロバイダーを選択します

アリババは0.8Bから9Bまでの4つの新しいQwen3.5モデルをリリースしました。9B(推論、知能指数で32位)は10Bパラメータ下で最も知能の高いモデルであり、4B(推論、27位)は5Bより最も知能が高いですが、どちらも知能指数を実行するために2億00M+の出力トークンを使用しています @Alibaba_QwenはQwen3.5ファミリーを拡張し、4つのより小さな密度の高いモデルを導入しました:9B(推論、知能指数で32)、4B(推論、27)、2B(推論、16)、0.8B(推論、9)。これらは今月初めに発売されたより大きな397B、27B、122B A10B、35B A3Bモデルを補完するものです。すべてのモデルはApache 2.0ライセンスを受けており、262Kコンテキストをサポートし、ネイティブビジョン対応を含み、Qwen3.5ファミリーの他のモデルと同じ統一思考/非思考ハイブリッドアプローチを採用しています推論バリアントの主なベンチマーク結果: † 9Bと4Bはそれぞれのサイズクラスで最も知能の高いモデルであり、10Bパラメータ内の他のすべてのモデルを上回っています。Qwen3.5 9B(32)は、10B未満の次に近いモデルであるFalcon-H1R-7B(16)とNVIDIA Nemotron Nano 9B V2(Reasoning、15)のほぼ倍のスコアを獲得しています。Qwen3.5 4B(27)は、パラメータの約半分にもかかわらずこれらすべてを上回っています。4つの小型Qwen3.5モデルはすべて、知能対総パラメータチャートのパレートフロンティアに位置しています † Qwen3.5世代は、Qwen3に対してQwen3よりも物質知能が向上し、10B未満のモデルサイズで、総パラメータ数が増えるほど大きな向上を示します。推論の比較:Qwen3.5 9B(32)はQwen3 VL 8B(17)に15ポイントリードし、4B(27)はQwen3 4B 2507(18)より9ポイント上回り、2B(16)はQwen3 1.7B(推定13)に3ポイント上回り、0.8B(9)はQwen3 0.6B(6.5)に2.5ポイント上回っています。 † 4つのモデルすべてが2億3,000万〜3億9,000万の出力トークンを使って知能指数を運用しており、これはより大きなQwen3.5の兄弟モデルやQwen3の前身モデルよりも大幅に多いです。Qwen3.5 2Bは~390Mの出力トークンを使用し、4Bは~240M、0.8Bは~230M、9Bは~260Mを使用しました。参考までに、はるかに大きなQwen3.5 27Bは98Mを使用し、397Bフラッグシップは86Mを使用していました。これらのトークン数は、Gemini 3.1 Pro Preview(57M)、GPT-5.2(xhigh、1億30M)、GLM-5 Reasoning(109M)といった多くのフロンティアモデルを上回っています † AA全知は比較的弱点であり、4Bと9Bの幻覚率は80〜82%です。Qwen3.5 4BはAA-Omniscienceで-57点、幻覚率80%、精度12.8%です。Qwen3.5 9Bは-56点、幻覚率82%、正確率14.7%です。これらはQwen3の前身(Qwen3 4B 2507: -61、幻覚84%、精度12.7%)よりわずかに優れており、改善の主な要因は高い精度よりも幻覚の発生率の低下によるものです。 † Qwen3.5のサブ10Bモデルは、これまでにないスケールで高い知能とネイティブビジョンを融合させています。MMMU-Pro(マルチモーダル推論)では、Qwen3.5 9Bが69.2%、4Bが65.4%のスコアを得ており、Qwen3 VL 8B(56.6%)、Qwen3 VL 4B(52.0%)、Ministral 3 8B(46.0%)を上回っています。Qwen3.5 0.8Bは25.8%のスコアで、1B未満モデルとしては注目すべき数字ですその他の情報: † コンテキストウィンドウ:262Kトークン † ライセンス:Apache 2.0 † 量子化:ネイティブ重みはBF16です。アリババはこれらの小規模モデルに対してファーストパーティのGPTQ-Int4量子化を公開していませんが、以前にリリースされたQwen3.5ファミリーの大型モデル(27B、35B-A3B、122B-A10B、397B-A17B)については公開しています。4ビット量子化では、これら4つのモデルすべてが消費者向けハードウェアで利用可能です † 利用可能性:公開時点で、これらのモデルをホストするファーストパーティまたはサードパーティのサーバーレスAPIは存在しません

アリババはQwen3.5モデルファミリーを3つの新モデルで拡大しました。27Bモデルは特に注目されており、人工分析知能指数で42点を獲得し、オープンウェイトモデルはその8倍から25倍の規模に相当します @Alibaba_Qwenは今月初めに発売された397Bフラッグシップに加え、Qwen3.5ファミリーを3つの新モデルで拡充しました。Qwen3.5 27B(密度が高く、Intelligence Indexで42点)、Qwen3.5 122B A10B(MoE、42位)、Qwen3.5 35B A3B(MoE、37位)です。2つのMoE(Mixture-of-Experts)モデルは、順方向パスごとに全体のパラメータの一部しか起動しません(それぞれ122Bの10B、35Bの~3B)。知能指数は、一般推論、主体的課題、コーディング、科学的推論を含む10の評価を含む総合指標です。すべてのモデルはApache 2.0ライセンスを受けており、ネイティブで262Kコンテキストをサポートし、AlibabaがQwen3 2507アップデートでInstructとReasoningのチェックポイントを分離した後、元のQwen3から統一思考/非思考ハイブリッドアーキテクチャに戻っています。推論バリアントの主なベンチマーク結果: † Qwen 3.5 27Bは知能指数で42点を獲得し、230B以下の最も知能の高いモデルです。同規模の最も近いモデルはGLM-4.7-Flash(合計31B、3Bアクティブ)で、スコアは30です。同等の知能を持つオープンウェイトモデルは、総パラメータの8〜25倍大きいです:MiniMax-M2.5(230B, 42)、DeepSeek V3.2(685B, 42)、GLM-4.7(357B, 42)。FP8の精度ではモデルの重みを格納するのに~27GBかかりますが、4ビット量子化ではノートパソコン品質のハードウェアと16GB+のRAMを使えます † Qwen3.5 27BはGDPval-AA(Agentic Real-World Work Tasks)で1205点を獲得し、より大きなモデルと並ぶ評価です。参考までに、MiniMax-M2.5は1206点、GLM-4.7(推論)は1200点、DeepSeek v3.2(推論)は1194点です。これは特に27Bパラメータモデルとして注目され、その規模に対して強いエージェント能力があることを示唆しています。GDPval-AAは、44の職業と9つの主要産業の実世界の課題でモデルをテストしています † AA-全知はQwen3.5ファミリー全体で相対的な弱点であり、主に誤覚率よりも精度の低下が原因となっています。Qwen3.5 27BはAA-Omniscienceで-42のスコアを獲得し、MiniMax-M2.5(-40)と同等ですが、DeepSeek V3.2(-21)やGLM-4.7(-35)には及びません。Qwen3.5 27Bの幻覚率(80%)は同業他社より低い(GLM-4.7 90%、MiniMax 89%、DeepSeek 82%)が、精度も低く、DeepSeek V3.2の34%、GLM-4.7の29%に対し21%です。これはモデルサイズの結果と考えられます。一般的に、総パラメータが多いモデルほどAA-Omniscienceでは精度が高く、より広い知識の想起はパラメータ数が多いことで有利になることが観察されています † Qwen3.5 27BはQwen3.5 122B A10Bと同等の知能を持っています。122BのA10BはMixture-of-Expertモデルで、1回のフォワードパスで122Bの総パラメータのうち10Bのみを活性化します。27BモデルはGDPval-AA(1205 Elo対1145 Elo)でリードし、TerminalBench(+1.5 p.p.)でもわずかにリードしていますが、122BモデルはSciCode(+2.5 p.p.)、HLE(+1.2 p.p.)でリードし、幻覚率も低い(Omniscience -40 vs -42) † Qwen3.5 35B A3B(Reasoning、37)は最も知能的なモデルで、アクティブパラメータ~3Bを持ち、GLM-4.7-Flash(30)より7ポイントリードしています。この~3Bのアクティブカテゴリーには、Qwen3 Coder Next(合計80B、28台)、Qwen3 Next 80B A3B(27台)、NVIDIA Nemotron 3 Nano 30B A3B(24台)などがあります † Qwen3.5 27Bは9,800万の出力トークンを使ってIntelligence Indexを実行し、Alibaba Cloud API経由で約299ドルの費用できました。これは、同じ知能を持つモデル(MiniMax-M2.5(56M)、DeepSeek V3.2(61M)、さらにはより大きなQwen3.5 397B(86M)と比べて、トークン使用率が非常に高いものです。その他の情報: † コンテキストウィンドウ:262Kトークン(YaRN経由で1Mまで拡張可能) † ライセンス:Apache 2.0 † API価格(アリババクラウド):397B:$0.60/$3.60、122B:$0.40/$3.20、27B:$0.30/$2.40、35B A3B:100万の入出力トークンあたり$0.25/$2.00

トップ

ランキング

お気に入り