Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Paul Graham delade inlägget
Det är ibland svårt att förstå betydelsen av de resonemang och logiska uppdateringar som börjar dyka upp i kraftfulla modeller, som GPT-5. Här är ett *mycket enkelt* exempel på hur kraftfulla dessa modeller blir.
Jag tog ett nyligen avskriftsdokument från NVIDIA:s intäktssamtal som var 23 sidor långt och hade 7 800 ord. Jag tog en del av meningen "och bruttomarginalen kommer att förbättras och återgå till mitten av 70-talet" och ändrade "mitten av 70-talet" till "mitten av 60-talet".
För en avlägset inställd finansanalytiker skulle detta se malplacerat ut, eftersom marginalerna inte skulle "förbättras och återvända" till en lägre siffra än den som beskrivs som en högre siffra någon annanstans. Men förmodligen skulle 95 % av de som läser detta pressmeddelande inte ha upptäckt ändringen eftersom den lätt passar in i de andra 7 800 orden som nämns.
Med Box AI, där jag testade en mängd olika AI-modeller, frågade jag sedan en rad modeller "Finns det några logiska fel i det här dokumentet? Ge ett svar på en mening."
GPT-4.1, GPT4.1 mini och en handfull andra modeller som var toppmoderna för bara ~6 månader sedan kom i allmänhet tillbaka och returnerade att det inte fanns några logiska fel i dokumentet. För dessa modeller verkar dokumentet förmodligen sammanhängande och följer hur man förväntar sig att en resultatutskrift ska se ut, så ingenting sticker egentligen ut för dem om vad de ska vara uppmärksamma på - en slags omvänd hallucination.
GPT-5, å andra sidan, upptäckte snabbt problemet och svarade med:
"Ja – dokumentet innehåller en intern inkonsekvens om bruttomarginalguidningen, vid ett tillfälle säger man att marginalerna kommer att "återgå till mitten av 60-talet" och senare säger att de kommer att vara "i mitten av 70-talet" senare i år.
Otroligt nog hände detta med GPT-5, GPT-5 mini och, anmärkningsvärt, *till och med* GPT-5 nano. Tänk på att utgångstoken för GPT-5 nano är prissatta till 1/20 av GPT-4.1:s tokens. Så, mer intelligent (i detta användningsfall) för 5% av kostnaden.
Även om det inte ofta är en daglig företeelse för alla kunskapsarbetare att göra felgranskningar av affärsdokument, visar sig dessa typer av problem på en mängd olika sätt när man hanterar stora ostrukturerade datamängder, som finansiella dokument, kontrakt, utskrifter, rapporter med mera. Det kan handla om att hitta ett faktum, att räkna ut ett logiskt felslut, att köra ett hypotetiskt resonemang eller att kräva ett sofistikerat deduktivt resonemang.
Och möjligheten att tillämpa mer logik och resonemang på företagsdata blir särskilt viktig när man distribuerar AI-agenter i företaget. Så det är fantastiskt att se framstegen inom detta område just nu, och detta kommer att öppna upp massor av fler användningsområden för företag.
105,99K
Någon frågade hur man kan utvidga startups idéer. Det bästa sättet är att krympa ner idén till dess essens och sedan fråga hur brett den väsentliga idén skulle kunna utvidgas. Du måste dock krympa den först, annars kommer det att finnas slumpmässiga saker kvar i den som hindrar dess expansion.
105,24K
Jag träffade en grundare idag som sa att han skriver 10 000 rader kod om dagen nu tack vare AI. Detta är förmodligen gränsfallet. Han är en smart programmerare, han känner till AI-verktyg mycket väl och han pratar om en 12-timmars dag. Men han är inte naiv. Det här är inte 10 000 rader buggfylld skit.
123,25K
Topp
Rankning
Favoriter
Trendande på kedjan
Trendande på X
Senaste toppfinansieringarna
Mest anmärkningsvärda