GPT-5 ble lansert i går. 94.6 % på AIME 2025. 74,9 % på SWE-benken. Når vi nærmer oss de øvre grensene for disse referansene, dør de. Det som gjør GPT-5 og neste generasjon modeller revolusjonerende er ikke deres kunnskap. Det er å vite hvordan man skal handle. For GPT-5 skjer dette på to nivåer. Først å bestemme hvilken modell du skal bruke. Men for det andre, og enda viktigere, gjennom verktøykall. Vi har levd i en tid der LLM-er mestret kunnskapsinnhenting og remontering. Forbrukersøk og koding, de første morderapplikasjonene, er grunnleggende kunnskapsinnhentingsutfordringer. Begge organiserer eksisterende informasjon på nye måter. Vi har klatret disse bakkene, og som et resultat er konkurransen mer intens enn noen gang. Anthropic, OpenAI og Googles modeller konvergerer på lignende funksjoner. Kinesiske modeller og åpen kildekode-alternativer fortsetter å presse seg stadig nærmere toppmoderne. Alle kan hente informasjon. Alle kan generere tekst. Den nye konkurranseaksen? Verktøy-kall. Tool-calling forvandler LLM-er fra rådgivere til skuespillere. Det kompenserer for to kritiske modellsvakheter som rene språkmodeller ikke kan overvinne. For det første, orkestrering av arbeidsflyt. Modeller utmerker seg ved enkeltbilderesponser, men sliter med flertrinns, tilstandsfulle prosesser. Verktøy gjør dem i stand til å administrere lange arbeidsflyter, spore fremdrift, håndtere feil, opprettholde kontekst på tvers av dusinvis av operasjoner. For det andre, systemintegrasjon. LLM-er lever i en verden med kun tekst. Verktøy lar dem kommunisere forutsigbart med eksterne systemer som databaser, APIer og bedriftsprogramvare, og gjøre naturlig språk til kjørbare handlinger. I løpet av den siste måneden har jeg bygget 58 forskjellige AI-verktøy. E-postbehandlere. CRM-integratorer. Oppdaterere av forestillinger. Vitenskapelige assistenter. Hvert verktøy utvider modellens muligheter til et nytt domene. Den viktigste funksjonen for AI er å velge riktig verktøy raskt og riktig. Hvert feildirigerte trinn dreper hele arbeidsflyten. Når jeg sier "les denne e-posten fra Y Combinator og finn alle oppstartene som ikke er i CRM", utfører moderne LLM-er en kompleks sekvens. Én kommando på engelsk erstatter en hel arbeidsflyt. Og dette er bare en enkel en. Enda bedre, modellen, riktig satt opp med de riktige verktøyene, kan verifisere sitt eget arbeid at oppgavene ble fullført i tide. Denne selvverifiseringssløyfen skaper pålitelighet i arbeidsflyter som er vanskelig å oppnå ellers. Multipliser dette på tvers av hundrevis av ansatte. Tusenvis av arbeidsflyter. Produktivitetsgevinstene sammensettes eksponentielt. Vinnerne i fremtidens AI-verden vil være de som er mest sofistikerte til å orkestrere verktøy og rute de riktige spørringene. Hver gang. Når disse arbeidsflytene er forutsigbare, er det da vi alle vil bli agentledere.
3,18K