Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Paul Graham repostoval/a
Někdy je těžké pochopit význam aktualizací uvažování a logiky, které se začínají objevovat ve výkonných modelech, jako je GPT-5. Zde je *velmi jednoduchý* příklad toho, jak výkonné tyto modely jsou.
Vzal jsem si nedávný dokument s přepisem hovoru o výsledcích společnosti NVIDIA, který měl 23 stran a 7 800 slov. Vzal jsem část věty "a hrubá marže se zlepší a vrátí se do poloviny 70. let" a upravil jsem "polovinu 70. let" na "polovinu 60. let".
Pro vzdáleně naladěného finančního analytika by to vypadalo nepatřičně, protože marže by se "nezlepšily a nevrátily" na nižší číslo, než je to, které je jinde popsáno jako vyšší číslo. Ale pravděpodobně 95 % lidí, kteří čtou tuto tiskovou zprávu, by si této úpravy nevšimlo, protože se snadno vejde do ostatních 7 800 slov, která jsou zde zmíněna.
S Box AI, testováním různých modelů AI, jsem se pak zeptal řady modelů: "Jsou v tomto dokumentu nějaké logické chyby? Odpovězte prosím jednou větou."
GPT-4.1, GPT4.1 mini a hrstka dalších modelů, které byly nejmodernější ještě před ~6 měsíci, se obecně vrátily a vrátily, že v dokumentu nejsou žádné logické chyby. U těchto modelů se dokument pravděpodobně zdá být koherentní a řídí se tím, jak by měl vypadat přepis příjmů, takže pro ně nic opravdu nevyniká v tom, čemu by měli věnovat pozornost - jakási obrácená halucinace.
GPT-5 naopak problém rychle objevil a reagoval:
"Ano – dokument obsahuje vnitřní nekonzistenci ohledně vedení hrubé marže, v jednom bodě říká, že marže se "vrátí do poloviny 60. let" a později říká, že koncem tohoto roku budou "v polovině 70. let".
Překvapivě se to stalo s GPT-5, GPT-5 mini a pozoruhodně dokonce i s GPT-5 nano. Mějte na paměti, že výstupní token GPT-5 nano má cenu 1/20 tokenů GPT-4.1. Takže inteligentnější (v tomto případě použití) za 5 % nákladů.
Nyní, i když provádění kontrol chyb v obchodních dokumentech není pro každého znalostního pracovníka často každodenní záležitostí, tyto typy problémů se objevují různými způsoby při práci s velkými nestrukturovanými soubory dat, jako jsou finanční dokumenty, smlouvy, přepisy, zprávy a další. Může to být nalezení faktu, zjištění logického klamu, provedení hypotetického scénáře nebo vyžadování sofistikovaného deduktivního uvažování.
A schopnost aplikovat více logiky a uvažování na podniková data se stává obzvláště důležitou při nasazování AI agentů v podniku. Je tedy úžasné vidět pokrok v této oblasti právě teď a podnikům to otevře spoustu dalších případů použití.
105,99K
Paul Graham repostoval/a
Pořádáme akci Kontextové inženýrství v SF!
Zjistěte, jak přední týmy aplikované umělé inteligence navrhují kontextová okna. Dostat zprávy od:
Jake Heller, generální ředitel @Casetext
Beyang Liu, technický ředitel @Sourcegraph
Sam Bhagwat, generální ředitel @Mastra_ai
Jeff Huber, generální ředitel @trychroma
RSVP:

65,01K
Dnes jsem se setkal se zakladatelem, který řekl, že nyní díky umělé inteligenci píše 10 000 řádků kódu denně. To je pravděpodobně limitní případ. Je to skvělý programátor, zná nástroje umělé inteligence velmi dobře a mluví o 12hodinovém pracovním dni. Ale není naivní. Tohle není 10 000 řádků nesmyslů plných brouků.
123,24K
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější