Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Paul Graham ha ripubblicato
A volte è difficile afferrare il significato degli aggiornamenti di ragionamento e logica che stanno iniziando a emergere in modelli potenti, come GPT-5. Ecco un *esempio molto semplice* di quanto siano potenti questi modelli.
Ho preso un documento di trascrizione della chiamata sugli utili di NVIDIA recente che era lungo 23 pagine e conteneva 7.800 parole. Ho preso parte della frase "e il margine lordo migliorerà e tornerà ai medi 70" e ho modificato "medi 70" in "medi 60".
Per un analista finanziario che segue da remoto, questo sembrerebbe fuori luogo, perché i margini non "miglioreranno e torneranno" a un numero inferiore rispetto a quello descritto come un numero più alto altrove. Ma probabilmente il 95% delle persone che leggono questo comunicato stampa non avrebbe notato la modifica perché si inserisce facilmente negli altri 7.800 parole menzionate.
Con Box AI, testando una varietà di modelli di AI, ho poi chiesto a una serie di modelli "Ci sono errori logici in questo documento? Per favore fornisci una risposta in una frase."
GPT-4.1, GPT4.1 mini e un pugno di altri modelli che erano all'avanguardia solo ~6 mesi fa generalmente hanno risposto che non c'erano errori logici nel documento. Per questi modelli, il documento probabilmente sembra coerente e segue ciò che ci si aspetterebbe da una trascrizione degli utili, quindi nulla spicca davvero per loro su cosa prestare attenzione - una sorta di allucinazione inversa.
GPT-5, d'altra parte, ha rapidamente scoperto il problema e ha risposto con:
"Sì — il documento contiene un'incoerenza interna riguardo alla guida sul margine lordo, dicendo in un certo punto che i margini "torneranno ai medi 60" e successivamente dicendo che saranno "nei medi 70" più tardi quest'anno."
Incredibilmente, questo è successo con GPT-5, GPT-5 mini e, notevolmente, *anche* GPT-5 nano. Tieni presente che i token di output di GPT-5 nano sono prezzi a 1/20 del costo dei token di GPT-4.1. Quindi, più intelligente (in questo caso d'uso) per il 5% del costo.
Ora, mentre fare revisioni sugli errori nei documenti aziendali non è spesso un'attività quotidiana per ogni lavoratore della conoscenza, questi tipi di problemi si presentano in vari modi quando si tratta di grandi set di dati non strutturati, come documenti finanziari, contratti, trascrizioni, rapporti e altro. Può trattarsi di trovare un fatto, capire un errore logico, eseguire un'ipotesi o richiedere un ragionamento deduttivo sofisticato.
E la capacità di applicare più logica e ragionamento ai dati aziendali diventa particolarmente critica quando si distribuiscono agenti AI nell'impresa. Quindi, è sorprendente vedere i progressi in questo campo in questo momento, e questo aprirà molte più possibilità per le aziende.
93,63K
Paul Graham ha ripubblicato
Stiamo organizzando un evento di Context Engineering a SF!
Scopri come i principali team di AI applicata stanno ingegnerizzando le loro finestre di contesto. Ascolta:
Jake Heller, CEO @Casetext
Beyang Liu, CTO @Sourcegraph
Sam Bhagwat, CEO @Mastra_ai
Jeff Huber, CEO @trychroma
RSVP:

65,01K
Oggi ho incontrato un fondatore che ha detto di scrivere 10.000 righe di codice al giorno grazie all'IA. Questo è probabilmente il caso limite. È un programmatore di talento, conosce molto bene gli strumenti di IA e sta parlando di una giornata lavorativa di 12 ore. Ma non è ingenuo. Non si tratta di 10.000 righe di codice pieno di bug.
123,23K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari