GPT-5 lanserades igår. 94,6 % på AIME 2025. 74,9% på SWE-bänk. När vi närmar oss de övre gränserna för dessa riktmärken dör de. Det som gör GPT-5 och nästa generations modeller revolutionerande är inte deras kunskap. Det är att veta hur man ska agera. För GPT-5 sker detta på två nivåer. Först måste du bestämma vilken modell som ska användas. Men för det andra, och ännu viktigare, genom att ringa verktyg. Vi har levt i en tid där LLM:er behärskade kunskapshämtning och återmontering. Konsumentsökning och kodning, de första mördarapplikationerna, är i grunden kunskapssökningsutmaningar. Båda organiserar befintlig information på nya sätt. Vi har bestigit dessa kullar och som ett resultat av detta är konkurrensen mer intensiv än någonsin. Anthropic, OpenAI och Googles modeller konvergerar på liknande funktioner. Kinesiska modeller och alternativ med öppen källkod fortsätter att pressa sig allt närmare den senaste tekniken. Alla kan hämta information. Alla kan generera text. Den nya konkurrensaxeln? Verktygs-anrop. Verktygsanrop förvandlar LLM:er från rådgivare till aktörer. Det kompenserar för två kritiska svagheter i modellen som rena språkmodeller inte kan övervinna. För det första, orkestrering av arbetsflöden. Modeller utmärker sig vid enstaka svar men kämpar med tillståndskänsliga processer i flera steg. Verktyg gör det möjligt för dem att hantera långa arbetsflöden, spåra framsteg, hantera fel och upprätthålla sammanhang i dussintals operationer. För det andra, systemintegration. LLM:er lever i en värld med endast text. Med hjälp av verktyg kan de samverka på ett förutsägbart sätt med externa system som databaser, API:er och företagsprogramvara, och omvandla naturligt språk till körbara åtgärder. Under den senaste månaden har jag byggt 58 olika AI-verktyg. Processorer för e-post. CRM-integratörer. Uppdaterare av begrepp. Forskningsassistenter. Varje verktyg utökar modellens funktioner till en ny domän. Den viktigaste förmågan för AI är att välja rätt verktyg snabbt och korrekt. Varje feldirigerat steg dödar hela arbetsflödet. När jag säger "läs det här e-postmeddelandet från Y Combinator och hitta alla nystartade företag som inte finns i CRM", utför moderna LLM:er en komplex sekvens. Ett kommando på engelska ersätter ett helt arbetsflöde. Och det här är bara en enkel fråga. Ännu bättre är att modellen, korrekt inställd med rätt verktyg, kan verifiera sitt eget arbete att uppgifterna slutfördes i tid. Denna självverifieringsloop skapar tillförlitlighet i arbetsflöden som är svår att uppnå annars. Multiplicera detta över hundratals anställda. Tusentals arbetsflöden. Produktivitetsvinsterna ökar exponentiellt. Vinnarna i framtidens AI-värld kommer att vara de som är mest sofistikerade på att orkestrera verktyg och dirigera rätt frågor. Varje gång. När dessa arbetsflöden är förutsägbara, det är då vi alla kommer att bli agentchefer.
3,18K