Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

常为希 🔸🚢币安人生(Ai奇点)
Proste i złożone Tam, gdzie skała się zatrzymuje, gdzie 🌱 woda pędzi DYOR zrób własne badania | NFA nie ma porad finansowych
Wow, @sanchitmonga22 zespół RunAnywhereAI w ciągu 48 godzin stworzył MetalRT, który podniósł prędkość dekodowania LLM na Apple Silicon na nowy poziom. Na M4 Max przy użyciu tego samego modelu 4-bitowego, Qwen3-0.6B osiąga 658 tok/s, a LFM 2.5-1.2B 570 tok/s, a pierwszy token zajmuje tylko 6.6 ms.
W porównaniu do tego samego pliku, wyprzedza Apple własne MLX o 19%, średnio 67% lepszy od llama.cpp, a o uzu i Ollama nie wspominając, wszyscy są daleko w tyle.
Apple zawsze mówi o priorytecie lokalnym w Apple Intelligence, ale potencjał sprzętowy jest w rzeczywistości ograniczany przez różne ramy, co jest równoznaczne z jego zamknięciem. MetalRT bezpośrednio współpracuje z Metal API, eliminując warstwę Pythona i inne zbędne koszty abstrakcji, zaprojektowane specjalnie dla zjednoczonej pamięci + GPU, co pozwoliło uzyskać tę ekstremalną wydajność.
Prawdziwa wartość lokalnych modeli nigdy nie polega na tym, że "mogą działać", ale na tym, że działają wystarczająco szybko, oszczędnie i prywatnie, aby naprawdę zastąpić chmurę. 6.6 ms na pierwszy token oznacza, że rozmowy, głos, uzupełnianie kodu i wywołania JSON są praktycznie bez opóźnienia; wysoka prędkość tok/s pozwala na długie konteksty i równoległe korzystanie z wielu narzędzi, bez zacięć. Dodatkowo, brak połączenia z siecią, brak subskrypcji i dane nie opuszczają urządzenia, to właśnie tak powinien wyglądać lokalny AI na poziomie produktywności.
Szybciej nie oznacza tylko chwały dla liczb tok/s, ale pozwala małym modelom na bezpośrednie pokonanie doświadczenia odpowiedzi dużych modeli w chmurze na urządzeniach Apple. AI na urządzeniach w ekosystemie Apple powinno tak działać, a teraz naprawdę zaczyna przyspieszać. Apple naprawdę jest w domu, a społeczność open source otworzyła pudełko Pandory, lokalny AI jest niesamowity, tylko mam nadzieję na pojawienie się bardziej inteligentnych modeli.

605
Silnik neuronowy Apple w M5 Pro i M5 Max w końcu pozbył się swojego największego historycznego ograniczenia!
Wcześniej w iPhone'ach, iPadach i niskobudżetowych Macach, ANE był najlepszą opcją sprzętową do wnioskowania (niskie zużycie energii, wysoka wydajność), obejmującą większość urządzeń Apple.
Jednak w wysokobudżetowych Macach (seria Pro/Max) przepustowość pamięci ANE była znacznie niższa niż GPU, co uniemożliwiało mu dobre skalowanie do większych modeli/większych obciążeń wsadowych → stało się to główną "niepełnosprawnością" ANE.
Teraz M5 Pro / M5 Max rozwiązały ten problem (prawdopodobnie znacznie zwiększając przepustowość pamięci ANE, co pozwala mu na bardziej sprawiedliwą rywalizację z GPU).
ANE w końcu będzie mogło naprawdę wykorzystać swój potencjał w wysokobudżetowych Macach, a w przyszłości lokalna AI (szczególnie wydajne, niskozasilane wnioskowanie) przeżyje eksplozję rozwoju.


594
Najlepsze
Ranking
Ulubione
