Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Paul Graham heeft opnieuw gepost
Het is soms moeilijk om de betekenis van de redenering en logica-updates die beginnen op te duiken in krachtige modellen, zoals GPT-5, te begrijpen. Hier is een *heel eenvoudig* voorbeeld van hoe krachtig deze modellen worden.
Ik nam een recent transcript van een NVIDIA-verdiencall dat 23 pagina's lang was en 7.800 woorden bevatte. Ik nam een deel van de zin "en de brutomarge zal verbeteren en terugkeren naar de midden-70s" en wijzigde "midden-70s" naar "midden-60s".
Voor een op afstand ingeschakelde financiële analist zou dit uit de toon vallen, omdat de marges niet "verbeteren en terugkeren" naar een lager nummer dan het nummer dat elders als een hoger nummer wordt beschreven. Maar waarschijnlijk zou 95% van de mensen die deze persverklaring lezen de wijziging niet hebben opgemerkt, omdat het gemakkelijk past in de andere 7.800 woorden die worden genoemd.
Met Box AI, terwijl ik een verscheidenheid aan AI-modellen testte, vroeg ik een reeks modellen: "Zijn er logische fouten in dit document? Geef een antwoord in één zin."
GPT-4.1, GPT4.1 mini, en een handvol andere modellen die ongeveer 6 maanden geleden state-of-the-art waren, kwamen over het algemeen terug en gaven aan dat er geen logische fouten in het document waren. Voor deze modellen lijkt het document waarschijnlijk coherent en volgt het wat zij zouden verwachten dat een verdienstranscript eruit zou zien, dus valt er voor hen niets echt op om op te letten - een soort omgekeerde hallucinatie.
GPT-5 daarentegen ontdekte snel het probleem en reageerde met:
"Ja - het document bevat een interne inconsistentie over de brutomarge-voorspelling, waarbij op een gegeven moment wordt gezegd dat de marges "terug zullen keren naar de midden-60s" en later wordt gezegd dat ze "in de midden-70s" zullen zijn later dit jaar."
Verbazingwekkend genoeg gebeurde dit met GPT-5, GPT-5 mini, en, opmerkelijk, *zelfs* GPT-5 nano. Houd er rekening mee dat de outputtokens van GPT-5 nano geprijsd zijn op 1/20 van de tokens van GPT-4.1. Dus, intelligenter (voor deze use-case) voor 5% van de kosten.
Nu, hoewel het doen van foutcontroles op zakelijke documenten niet vaak een dagelijkse bezigheid is voor elke kenniswerker, komen dit soort problemen op verschillende manieren naar voren bij het omgaan met grote ongestructureerde datasets, zoals financiële documenten, contracten, transcripties, rapporten en meer. Het kan gaan om het vinden van een feit, het uitzoeken van een logische drogreden, het uitvoeren van een hypothetische situatie, of het vereisen van geavanceerde deductieve redenering.
En het vermogen om meer logica en redenering toe te passen op bedrijfsdata wordt vooral kritisch wanneer AI-agents in de onderneming worden ingezet. Het is dus geweldig om de vooruitgang in deze ruimte op dit moment te zien, en dit gaat een heleboel nieuwe use-cases voor bedrijven openen.
105,99K
Iemand vroeg hoe je de ideeën van startups kunt uitbreiden. De beste manier is om het idee terug te brengen tot de essentie, en dan te vragen hoe breed dat essentiële idee kan worden uitgebreid. Je moet het eerst verkleinen, anders blijven er willekeurige dingen in zitten die de uitbreiding belemmeren.
105,23K
Ik ontmoette vandaag een oprichter die zei dat hij nu 10.000 regels code per dag schrijft dankzij AI. Dit is waarschijnlijk het uiterste geval. Hij is een topprogrammeur, hij kent AI-tools heel goed, en hij heeft het over een werkdag van 12 uur. Maar hij is niet naïef. Dit zijn geen 10.000 regels vol met bugs.
123,24K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste