En röstagent som drivs av gpt-oss. Körs lokalt på min macBook. Demo inspelad i en Waymo med WiFi avstängt. Jag är fortfarande på min rymdspel röst AI-kick, uppenbarligen. Kodlänk nedan. För konversationsröst-AI vill du ställa in resonemangsbeteendet gpt-oss till "lågt". (Standardvärdet är "medium".) Anteckningar om hur du gör det och en jinja-mall som du kan använda finns i lagringsplatsen. LLM i demovideon är den stora 120B-versionen av gpt-oss. Du kan naturligtvis använda den mindre 20B-modellen för detta. Men OpenAI gjorde verkligen en cool sak här genom att designa 120B-modellen för att köras i "bara" 80 GB VRAM. Och den llama.cpp mlx-inferensen är snabb: ~250ms TTFT. Att köra en stor modell på enheten känns som en tidsresa in i AI:s framtid.
197,58K