熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Artificial Analysis
獨立分析 AI 模型和託管供應商 - 為您的用例選擇最佳模型和 API 供應商
阿里巴巴已推出4款新的Qwen3.5模型,參數範圍從0.8B到9B。9B(推理,智力指數32)是10B參數以下最智能的模型,而4B(推理,智力指數27)是5B以下最智能的模型,但兩者都使用200M+的輸出標記來運行智力指數。
@Alibaba_Qwen擴展了Qwen3.5系列,推出了四個較小的密集模型:9B(推理,智力指數32)、4B(推理,智力指數27)、2B(推理,智力指數16)和0.8B(推理,智力指數9)。這些模型補充了本月早些時候發布的更大模型397B、27B、122B A10B和35B A3B。所有模型均為Apache 2.0許可,支持262K上下文,包含原生視覺支持,並使用與Qwen3.5系列其他模型相同的統一思維/非思維混合方法。
推理變體的關鍵基準結果:
➤ 9B和4B是各自尺寸類別中最智能的模型,領先於所有其他10B參數以下的模型。Qwen3.5 9B(32)的得分大約是10B以下下一個最接近模型的兩倍:Falcon-H1R-7B(16)和NVIDIA Nemotron Nano 9B V2(推理,15)。儘管參數大約只有一半,Qwen3.5 4B(27)的得分仍超過所有這些模型。所有四個小型Qwen3.5模型都位於智力與總參數圖表的Pareto邊界上。
➤ Qwen3.5世代在所有10B以下模型尺寸上相較於Qwen3代表了實質的智力提升,隨著總參數數量的增加,增幅更大。比較推理變體:Qwen3.5 9B(32)比Qwen3 VL 8B(17)高出15分,4B(27)比Qwen3 4B 2507(18)高出9分,2B(16)比Qwen3 1.7B(估計13)高出3分,而0.8B(9)比Qwen3 0.6B(6.5)高出2.5分。
➤ 所有四個模型使用230-390M的輸出標記來運行智力指數,顯著高於Qwen3.5的較大兄弟模型和Qwen3的前身。Qwen3.5 2B使用約390M的輸出標記,4B使用約240M,0.8B使用約230M,9B使用約260M。作為參考,較大的Qwen3.5 27B使用了98M,而397B旗艦模型使用了86M。這些標記數量也超過了大多數前沿模型:Gemini 3.1 Pro Preview(57M)、GPT-5.2(xhigh,130M)和GLM-5推理(109M)。
➤ AA-Omniscience是一個相對的弱點,4B和9B的幻覺率為80-82%。Qwen3.5 4B的AA-Omniscience得分為-57,幻覺率為80%,準確率為12.8%。Qwen3.5 9B的得分為-56,幻覺率為82%和14.7%的準確率。這些數據比它們的Qwen3前身稍有改善(Qwen3 4B 2507:-61,84%幻覺,12.7%準確率),改善主要是由於較低的幻覺率,而非較高的準確率。
➤ Qwen3.5的10B以下模型結合了高智力和原生視覺,達到以前無法獲得的規模。在MMMU-Pro(多模態推理)上,Qwen3.5 9B得分69.2%,4B得分65.4%,領先於Qwen3 VL 8B(56.6%)、Qwen3 VL 4B(52.0%)和Ministral 3 8B(46.0%)。Qwen3.5 0.8B得分25.8%,這對於一個1B以下的模型來說是相當顯著的。
其他信息:
➤ 上下文窗口:262K標記
➤ 許可證:Apache 2.0
➤ 量化:原生權重為BF16。阿里巴巴尚未為這些小型模型發布第一方的GPTQ-Int4量化,儘管他們已為早期發布的Qwen3.5系列中的較大模型(27B、35B-A3B、122B-A10B、397B-A17B)發布了。在4位量化中,所有四個模型都可以在消費者硬體上訪問。
➤ 可用性:在發布時,沒有第一方或第三方無伺服器API托管這些模型。

6.04K
阿里巴巴擴展了其 Qwen3.5 模型系列,新增 3 個模型 - 27B 模型表現突出,在人工分析智能指數上得分 42,並且與開放權重模型相比,其大小為 8-25 倍
@Alibaba_Qwen 擴展了 Qwen3.5 家族,新增三個模型,與本月早些時候發布的 397B 旗艦模型一起:Qwen3.5 27B(密集型,智能指數得分 42)、Qwen3.5 122B A10B(MoE,42)和 Qwen3.5 35B A3B(MoE,37)。這兩個 MoE(專家混合)模型在每次前向傳遞中僅激活總參數的一小部分(122B 中的 10B 和 35B 中的約 3B)。智能指數是我們的綜合指標,涵蓋了 10 項評估,包括一般推理、代理任務、編碼和科學推理。
所有模型均為 Apache 2.0 許可,原生支持 262K 上下文,並在阿里巴巴將 Qwen3 2507 更新中的指令和推理檢查點分開後,回到了原始 Qwen3 的統一思維/非思維混合架構。
推理變體的關鍵基準結果:
➤ Qwen3.5 27B 在智能指數上得分 42,是 230B 以下最智能的模型。相似大小的最近模型是 GLM-4.7-Flash(總計 31B,活躍 3B),得分 30。相同智能的開放權重模型在總參數方面大約是 8-25 倍大:MiniMax-M2.5(230B,42)、DeepSeek V3.2(685B,42)和 GLM-4.7(357B,42)。在 FP8 精度下,存儲模型權重需要約 27GB,而在 4 位量化中,您可以使用 16GB+ RAM 的筆記本電腦質量硬件
➤ Qwen3.5 27B 在 GDPval-AA(代理現實工作任務)上得分 1205,與更大模型並列。作為參考,MiniMax-M2.5 得分 1206,GLM-4.7(推理)得分 1200,DeepSeek V3.2(推理)得分 1194。這對於一個 27B 參數模型來說尤其值得注意,並表明其大小的強代理能力。GDPval-AA 測試模型在 44 個職業和 9 個主要行業中的現實任務
➤ AA-Omniscience 在 Qwen3.5 家族中仍然是一個相對弱點,主要是由於準確性較低,而不是幻覺率。Qwen3.5 27B 在 AA-Omniscience 上得分 -42,與 MiniMax-M2.5(-40)相當,但落後於 DeepSeek V3.2(-21)和 GLM-4.7(-35)。儘管 Qwen3.5 27B 的幻覺率(80%)低於同類(GLM-4.7 90%、MiniMax 89%、DeepSeek 82%),但其準確性也較低,為 21%,而 DeepSeek V3.2 為 34%,GLM-4.7 為 29%。這可能是模型大小的結果 - 我們通常觀察到,擁有更多總參數的模型在 AA-Omniscience 的準確性上表現更好,因為更大的參數數量有助於更廣泛的知識回憶
➤ Qwen3.5 27B 的智能水平與 Qwen3.5 122B A10B 相當。122B A10B 是一個專家混合模型,在每次前向傳遞中僅激活其 122B 總參數中的 10B。27B 模型在 GDPval-AA(1205 Elo 對 1145 Elo)和 TerminalBench(+1.5 p.p.)上領先,而 122B 模型在 SciCode(+2.5 p.p.)、HLE(+1.2 p.p.)上領先,並且幻覺率較低(Omniscience -40 對 -42)
➤ Qwen3.5 35B A3B(推理,37)是最智能的模型,擁有約 3B 的活躍參數,比 GLM-4.7-Flash(30)高出 7 分。其他在這個約 3B 活躍類別中的模型包括 Qwen3 Coder Next(總計 80B,28)、Qwen3 Next 80B A3B(27)和 NVIDIA Nemotron 3 Nano 30B A3B(24)
➤ Qwen3.5 27B 使用了 98M 輸出標記來運行智能指數,通過阿里巴巴雲 API 的成本約為 $299。這與相似智能的模型相比,標記使用量顯著較高:MiniMax-M2.5(56M)、DeepSeek V3.2(61M),甚至更大的 Qwen3.5 397B(86M)。
其他信息:
➤ 上下文窗口:262K 標記(可擴展至 1M 通過 YaRN)
➤ 許可:Apache 2.0
➤ API 價格(阿里巴巴雲):397B:$0.60/$3.60,122B:$0.40/$3.20,27B:$0.30/$2.40,35B A3B:$0.25/$2.00 每 1M 輸入/輸出標記

3.75K
Kling 3.0 1080p (Pro) 在人工分析視頻競技場的文本轉視頻領域中,無論是有音頻還是無音頻排行榜上都奪得了第一名,超越了 Grok Imagine、Runway Gen-4.5 和 Veo 3.1!
在圖像轉視頻方面,Kling 3.0 1080p (Pro) 在有音頻排行榜上排名第4,在無音頻排行榜上排名第6,落後於 Grok Imagine 和 PixVerse V5.6。
Kling 3.0 是 @Kling_ai 最新發布的產品,代表了他們 Kling 2.6 模型的一次重大飛躍。該模型提供 1080p (Pro) 和 720p (Standard) 兩個質量級別,支持最多 15 秒的生成以及原生音頻生成。
Kling 還發布了 Kling 3.0 Omni,這是一個多模態模型,超越了視頻生成,支持圖像和視頻輸入、視頻編輯以及在單一統一模型中的視頻生成。Kling 3.0 Omni 1080p (Pro) 和 Omni 720p (Standard) 的表現也相當強勁,其中 Omni 1080p (Pro) 在有音頻的文本轉視頻中排名第2,在無音頻中排名第4。
Kling 3.0 可通過 Kling AI 應用程序和 @fal 的 API 獲得。Kling 3.0 1080p (Pro) 的價格約為 ~$13/分鐘(無音頻)和 ~$20/分鐘(有音頻),而 720p (Standard) 的價格分別為 ~$10/分鐘 和 ~$15/分鐘。無音頻的情況下,1080p (Pro) 的價格與 Veo 3.1 的 $12/分鐘 相當,但相比 Kling 2.5 Turbo 和 Grok Imagine 的 $4.20/分鐘 則顯得相當昂貴。
請參見下方我們的人工分析視頻競技場中 Kling 3.0 1080p (Pro) 與其他領先模型的比較 🧵

278
熱門
排行
收藏
