Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

常为希 🔸🚢币安人生(Ai奇点)
Просто і складно. Де закінчується камінь, де 🌱 тече вода DYOR Проведіть власне дослідження | NFA не має фінансових порад
Чорт, @sanchitmonga22 команда RunAnywhereAI створила MetalRT за 48 годин, безпосередньо піднявши швидкість декодування LLM на Apple Silicon на новий рівень, використавши ту ж 4-бітну модель на M4 Max, Qwen3-0.6B працює до 658 ток/с, LFM 2.5-1.2B 570 ток/с, а перший токен займає лише 6.6 мс.
Порівняно з тим самим документом, власний MLX від Apple має 19%, середній показник llama.cpp молотка — 67%, не кажучи вже про Uzu та Ollama, які відстають у всіх напрямках.
Apple Intelligence завжди наголошував на локальному пріоритеті, але апаратний потенціал фактично марнується через різні обмеження фреймворку, що еквівалентно закритості, MetalRT має пряму атаку на Metal API, відрізати хаотичні накладні витрати на Python-шар і абстракцію, а також адаптувати його для уніфікованої пам'яті + GPU, щоб витиснути цю хвилю надзвичайної продуктивності.
Справжня цінність локальної моделі ніколи не полягає в тому, щоб «просто запускай, якщо можеш», але вона працює достатньо швидко, економно і достатньо приватно, щоб справді замінити хмару. Перший токен 6,6 мс означає чат, голосовий голос, додаток до коду та виклик агента JSON без затримки; Високий ток/с може розширити контекст, мультитул паралелізм і уникнути заглушень. У поєднанні з відсутністю мережевого підключення, нульовою підпискою та даними, які ніколи не залишають пристрій, саме так має виглядати локальний штучний інтелект на рівні продуктивності.
Швидше — це не для того, щоб показувати показники ток/с, а дозволити малій моделі безпосередньо перевершити досвід відгуку хмарної моделі на пристроях Apple. Штучний інтелект Apple на пристрої має працювати саме так, і тепер він справді почав прискорюватися. Apple справді сидить як удома, спільнота відкритого коду готується відкрити коробку Pandora, локальний ШІ надто комфортний, я просто сподіваюся, що з'являться більш розумні моделі.

639
Apple Neural Engine нарешті звільняється від найбільших історичних обмежень на M5 Pro та M5 Max!
Раніше на iPhone, iPad та недорогих Mac ANE вже був найкращим апаратним варіантом для виведення (низьке енергоспоживання та висока ефективність), охоплюючи більшість пристроїв Apple.
Однак на потужних Mac (серія Pro/Max) пропускна здатність пам'яті ANE завжди була значно меншою, ніж у GPU, через що вона не могла добре масштабуватися для більших моделей і більших партій робочих навантажень→ Це стало головною «вадою» ANE.
Тепер M5 Pro / M5 Max вирішують цю проблему (що, ймовірно, значно збільшує пропускну здатність пам'яті ANE і дозволяє їй більш справедливо конкурувати з GPU).
ANE нарешті зможе по-справжньому реалізувати свій потенціал на преміальних Mac, а майбутнє принесе вибухові покращення локального ШІ, особливо високоефективний, енергоспоживаний інфіктив.


597
Найкращі
Рейтинг
Вибране
