DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Steven Sinofsky

Steven Sinofsky heeft opnieuw gepost

Het is soms moeilijk om de betekenis van de redenering en logica-updates die beginnen op te duiken in krachtige modellen, zoals GPT-5, te begrijpen. Hier is een *heel eenvoudig* voorbeeld van hoe krachtig deze modellen worden. Ik nam een recent transcript van een NVIDIA-verdiencall dat 23 pagina's lang was en 7.800 woorden bevatte. Ik nam een deel van de zin "en de brutomarge zal verbeteren en terugkeren naar de midden-70s" en wijzigde "midden-70s" naar "midden-60s". Voor een op afstand ingeschakelde financiële analist zou dit uit de toon vallen, omdat de marges niet "verbeteren en terugkeren" naar een lager nummer dan het nummer dat elders als een hoger nummer wordt beschreven. Maar waarschijnlijk zou 95% van de mensen die deze persverklaring lezen de wijziging niet hebben opgemerkt, omdat het gemakkelijk past in de andere 7.800 woorden die worden genoemd. Met Box AI, terwijl ik een verscheidenheid aan AI-modellen testte, vroeg ik een reeks modellen: "Zijn er logische fouten in dit document? Geef een antwoord in één zin." GPT-4.1, GPT4.1 mini, en een handvol andere modellen die ongeveer 6 maanden geleden state-of-the-art waren, kwamen over het algemeen terug en gaven aan dat er geen logische fouten in het document waren. Voor deze modellen lijkt het document waarschijnlijk coherent en volgt het wat zij zouden verwachten dat een verdienstranscript eruit zou zien, dus valt er voor hen niets echt op om op te letten - een soort omgekeerde hallucinatie. GPT-5 daarentegen ontdekte snel het probleem en reageerde met: "Ja - het document bevat een interne inconsistentie over de brutomarge-voorspelling, waarbij op een gegeven moment wordt gezegd dat de marges "terug zullen keren naar de midden-60s" en later wordt gezegd dat ze "in de midden-70s" zullen zijn later dit jaar." Verbazingwekkend genoeg gebeurde dit met GPT-5, GPT-5 mini, en, opmerkelijk, *zelfs* GPT-5 nano. Houd er rekening mee dat de outputtokens van GPT-5 nano geprijsd zijn op 1/20 van de tokens van GPT-4.1. Dus, intelligenter (voor deze use-case) voor 5% van de kosten. Nu, hoewel het doen van foutcontroles op zakelijke documenten niet vaak een dagelijkse bezigheid is voor elke kenniswerker, komen dit soort problemen op verschillende manieren naar voren bij het omgaan met grote ongestructureerde datasets, zoals financiële documenten, contracten, transcripties, rapporten en meer. Het kan gaan om het vinden van een feit, het uitzoeken van een logische drogreden, het uitvoeren van een hypothetische situatie, of het vereisen van geavanceerde deductieve redenering. En het vermogen om meer logica en redenering toe te passen op bedrijfsdata wordt vooral kritisch wanneer AI-agents in de onderneming worden ingezet. Het is dus geweldig om de vooruitgang in deze ruimte op dit moment te zien, en dit gaat een heleboel nieuwe use-cases voor bedrijven openen.

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste