Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

常为希 🔸🚢币安人生(Ai奇点)
Simplu și complex Unde se oprește piatra, unde 🌱 curge apa DYOR fă-ți propria cercetare | NFA nu are sfaturi financiare
La naiba, echipa @sanchitmonga22 RunAnywhereAI a creat MetalRT în 48 de ore, uscând direct viteza de decodare a LLM-urilor pe Apple Silicon la un nou nivel, folosind același model pe 4 biți pe M4 Max, Qwen3-0.6B funcționează la 658 tok/s, LFM 2.5-1.2B 570 tok/s, iar primul token durează doar 6,6ms.
Comparativ cu același document, MLX-ul Apple este de 19%, media llama.cpp ciocanului este de 67%, ca să nu mai vorbim de Uzu și Ollama, care rămân în urmă pe toate planurile.
Apple Intelligence de la Apple a declarat întotdeauna prioritate locală, dar potențialul hardware este de fapt irosit de diverse restricții ale cadrului, ceea ce echivalează cu a fi sigilat, MetalRT este pentru a ataca direct API-ul Metal, a elimina oversell-ul complicat al stratului Python și stratul de abstractizare și a-l adapta pentru memorie unificată + GPU pentru a elimina acest val de performanță extremă.
Valoarea reală a modelului local nu este niciodată "doar rulează dacă poți", ci funcționează suficient de rapid, economic și privat pentru a înlocui cu adevărat cloud-ul. 6,6ms primul token înseamnă chat, voce, supliment de cod și apel Agent JSON fără întârziere; High tok/s poate extinde contextul, poate folosi paralelismul cu mai multe unelte și poate evita bruiajul. Combinat cu zero rețea, zero abonamente și date care nu părăsesc niciodată dispozitivul, așa ar trebui să arate AI local la nivel de productivitate.
Mai rapid nu înseamnă să arăți cifrele tok/s, ci să lași modelul mic să depășească direct experiența de răspuns a modelului cloud big pe dispozitivele Apple. Inteligența artificială de pe dispozitiv a Apple ar trebui să fie jucată astfel, iar acum a început cu adevărat să accelereze. Apple stă cu adevărat acasă, comunitatea open source construiește pentru a deschide cutia Pandorei, AI-ul local este prea confortabil, sper doar să apară modele mai inteligente.

601
Apple Neural Engine se eliberează în sfârșit de cele mai mari limitări istorice ale modelelor M5 Pro și M5 Max!
Anterior, pe iPhone-uri, iPad-uri și Mac-uri de bază, ANE era deja cea mai bună opțiune hardware de inferență (consum redus de energie și eficiență ridicată), acoperind marea majoritate a dispozitivelor Apple.
Totuși, pe Mac-urile de top (seria Pro/Max), lățimea de bandă a memoriei ANE a fost întotdeauna mult mai mică decât cea a GPU-urilor, făcându-l imposibil să se scaleze bine la modele mai mari sau la loturi mai mari de sarcini→ Aceasta a devenit principala "dizabilitate" a ANE.
Acum M5 Pro / M5 Max rezolvă această problemă (ceea ce probabil crește mult lățimea de bandă a memoriei ANE și îi permite să concureze mai corect cu plăcile video).
ANE va putea, în sfârșit, să-și realizeze cu adevărat potențialul pe Mac-urile de top, iar viitorul va aduce îmbunătățiri explozive în AI local, în special inferența cu eficiență ridicată și consum de energie redusă.


592
Limită superioară
Clasament
Favorite
