一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Artificial Analysis

獨立分析 AI 模型和託管供應商 - 為您的用例選擇最佳模型和 API 供應商

阿里巴巴已推出4款新的Qwen3.5模型，參數範圍從0.8B到9B。9B（推理，智力指數32）是10B參數以下最智能的模型，而4B（推理，智力指數27）是5B以下最智能的模型，但兩者都使用200M+的輸出標記來運行智力指數。 @Alibaba_Qwen擴展了Qwen3.5系列，推出了四個較小的密集模型：9B（推理，智力指數32）、4B（推理，智力指數27）、2B（推理，智力指數16）和0.8B（推理，智力指數9）。這些模型補充了本月早些時候發布的更大模型397B、27B、122B A10B和35B A3B。所有模型均為Apache 2.0許可，支持262K上下文，包含原生視覺支持，並使用與Qwen3.5系列其他模型相同的統一思維/非思維混合方法。推理變體的關鍵基準結果： ➤ 9B和4B是各自尺寸類別中最智能的模型，領先於所有其他10B參數以下的模型。Qwen3.5 9B（32）的得分大約是10B以下下一個最接近模型的兩倍：Falcon-H1R-7B（16）和NVIDIA Nemotron Nano 9B V2（推理，15）。儘管參數大約只有一半，Qwen3.5 4B（27）的得分仍超過所有這些模型。所有四個小型Qwen3.5模型都位於智力與總參數圖表的Pareto邊界上。 ➤ Qwen3.5世代在所有10B以下模型尺寸上相較於Qwen3代表了實質的智力提升，隨著總參數數量的增加，增幅更大。比較推理變體：Qwen3.5 9B（32）比Qwen3 VL 8B（17）高出15分，4B（27）比Qwen3 4B 2507（18）高出9分，2B（16）比Qwen3 1.7B（估計13）高出3分，而0.8B（9）比Qwen3 0.6B（6.5）高出2.5分。 ➤ 所有四個模型使用230-390M的輸出標記來運行智力指數，顯著高於Qwen3.5的較大兄弟模型和Qwen3的前身。Qwen3.5 2B使用約390M的輸出標記，4B使用約240M，0.8B使用約230M，9B使用約260M。作為參考，較大的Qwen3.5 27B使用了98M，而397B旗艦模型使用了86M。這些標記數量也超過了大多數前沿模型：Gemini 3.1 Pro Preview（57M）、GPT-5.2（xhigh，130M）和GLM-5推理（109M）。 ➤ AA-Omniscience是一個相對的弱點，4B和9B的幻覺率為80-82%。Qwen3.5 4B的AA-Omniscience得分為-57，幻覺率為80%，準確率為12.8%。Qwen3.5 9B的得分為-56，幻覺率為82%和14.7%的準確率。這些數據比它們的Qwen3前身稍有改善（Qwen3 4B 2507：-61，84%幻覺，12.7%準確率），改善主要是由於較低的幻覺率，而非較高的準確率。 ➤ Qwen3.5的10B以下模型結合了高智力和原生視覺，達到以前無法獲得的規模。在MMMU-Pro（多模態推理）上，Qwen3.5 9B得分69.2%，4B得分65.4%，領先於Qwen3 VL 8B（56.6%）、Qwen3 VL 4B（52.0%）和Ministral 3 8B（46.0%）。Qwen3.5 0.8B得分25.8%，這對於一個1B以下的模型來說是相當顯著的。其他信息： ➤ 上下文窗口：262K標記 ➤ 許可證：Apache 2.0 ➤ 量化：原生權重為BF16。阿里巴巴尚未為這些小型模型發布第一方的GPTQ-Int4量化，儘管他們已為早期發布的Qwen3.5系列中的較大模型（27B、35B-A3B、122B-A10B、397B-A17B）發布了。在4位量化中，所有四個模型都可以在消費者硬體上訪問。 ➤ 可用性：在發布時，沒有第一方或第三方無伺服器API托管這些模型。

阿里巴巴擴展了其 Qwen3.5 模型系列，新增 3 個模型 - 27B 模型表現突出，在人工分析智能指數上得分 42，並且與開放權重模型相比，其大小為 8-25 倍 @Alibaba_Qwen 擴展了 Qwen3.5 家族，新增三個模型，與本月早些時候發布的 397B 旗艦模型一起：Qwen3.5 27B（密集型，智能指數得分 42）、Qwen3.5 122B A10B（MoE，42）和 Qwen3.5 35B A3B（MoE，37）。這兩個 MoE（專家混合）模型在每次前向傳遞中僅激活總參數的一小部分（122B 中的 10B 和 35B 中的約 3B）。智能指數是我們的綜合指標，涵蓋了 10 項評估，包括一般推理、代理任務、編碼和科學推理。所有模型均為 Apache 2.0 許可，原生支持 262K 上下文，並在阿里巴巴將 Qwen3 2507 更新中的指令和推理檢查點分開後，回到了原始 Qwen3 的統一思維/非思維混合架構。推理變體的關鍵基準結果： ➤ Qwen3.5 27B 在智能指數上得分 42，是 230B 以下最智能的模型。相似大小的最近模型是 GLM-4.7-Flash（總計 31B，活躍 3B），得分 30。相同智能的開放權重模型在總參數方面大約是 8-25 倍大：MiniMax-M2.5（230B，42）、DeepSeek V3.2（685B，42）和 GLM-4.7（357B，42）。在 FP8 精度下，存儲模型權重需要約 27GB，而在 4 位量化中，您可以使用 16GB+ RAM 的筆記本電腦質量硬件 ➤ Qwen3.5 27B 在 GDPval-AA（代理現實工作任務）上得分 1205，與更大模型並列。作為參考，MiniMax-M2.5 得分 1206，GLM-4.7（推理）得分 1200，DeepSeek V3.2（推理）得分 1194。這對於一個 27B 參數模型來說尤其值得注意，並表明其大小的強代理能力。GDPval-AA 測試模型在 44 個職業和 9 個主要行業中的現實任務 ➤ AA-Omniscience 在 Qwen3.5 家族中仍然是一個相對弱點，主要是由於準確性較低，而不是幻覺率。Qwen3.5 27B 在 AA-Omniscience 上得分 -42，與 MiniMax-M2.5（-40）相當，但落後於 DeepSeek V3.2（-21）和 GLM-4.7（-35）。儘管 Qwen3.5 27B 的幻覺率（80%）低於同類（GLM-4.7 90%、MiniMax 89%、DeepSeek 82%），但其準確性也較低，為 21%，而 DeepSeek V3.2 為 34%，GLM-4.7 為 29%。這可能是模型大小的結果 - 我們通常觀察到，擁有更多總參數的模型在 AA-Omniscience 的準確性上表現更好，因為更大的參數數量有助於更廣泛的知識回憶 ➤ Qwen3.5 27B 的智能水平與 Qwen3.5 122B A10B 相當。122B A10B 是一個專家混合模型，在每次前向傳遞中僅激活其 122B 總參數中的 10B。27B 模型在 GDPval-AA（1205 Elo 對 1145 Elo）和 TerminalBench（+1.5 p.p.）上領先，而 122B 模型在 SciCode（+2.5 p.p.）、HLE（+1.2 p.p.）上領先，並且幻覺率較低（Omniscience -40 對 -42） ➤ Qwen3.5 35B A3B（推理，37）是最智能的模型，擁有約 3B 的活躍參數，比 GLM-4.7-Flash（30）高出 7 分。其他在這個約 3B 活躍類別中的模型包括 Qwen3 Coder Next（總計 80B，28）、Qwen3 Next 80B A3B（27）和 NVIDIA Nemotron 3 Nano 30B A3B（24） ➤ Qwen3.5 27B 使用了 98M 輸出標記來運行智能指數，通過阿里巴巴雲 API 的成本約為 $299。這與相似智能的模型相比，標記使用量顯著較高：MiniMax-M2.5（56M）、DeepSeek V3.2（61M），甚至更大的 Qwen3.5 397B（86M）。其他信息： ➤ 上下文窗口：262K 標記（可擴展至 1M 通過 YaRN） ➤ 許可：Apache 2.0 ➤ API 價格（阿里巴巴雲）：397B：$0.60/$3.60，122B：$0.40/$3.20，27B：$0.30/$2.40，35B A3B：$0.25/$2.00 每 1M 輸入/輸出標記