DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Tomasz Tunguz

GPT-5 raggiunge il 94,6% di accuratezza su AIME 2025, suggerendo un ragionamento matematico quasi umano. Tuttavia, chiedigli di interrogare il tuo database e i tassi di successo crollano negli adolescenti. I benchmark Spider 2.0 rivelano un divario enorme nelle capacità dell'IA. Spider 2.0 è un benchmark completo text-to-SQL che testa la capacità dei modelli di IA di generare query SQL accurate da domande in linguaggio naturale su database reali. Mentre i grandi modelli di linguaggio hanno conquistato il lavoro di conoscenza in matematica, programmazione e ragionamento, il text-to-SQL rimane ostinatamente difficile. I tre benchmark Spider 2.0 testano l'interrogazione di database reali in diversi ambienti. Spider 2.0-Snow utilizza database Snowflake con 547 esempi di test, raggiungendo un picco del 59,05% di accuratezza. Spider 2.0-Lite copre BigQuery, Snowflake e SQLite con altri 547 esempi, raggiungendo solo il 37,84%. Spider 2.0-DBT testa la generazione di codice contro DuckDB con 68 esempi, arrivando a un massimo del 39,71%. Questo divario di prestazioni non è dovuto alla mancanza di tentativi. Da novembre 2024, 56 sottomissioni di 12 famiglie di modelli hanno gareggiato su questi benchmark. Claude, OpenAI, DeepSeek e altri hanno tutti messo alla prova i loro modelli contro questi test. I progressi sono stati costanti, passando da circa il 2% a circa il 60% negli ultimi nove mesi. Il puzzle si approfondisce quando consideri i vincoli di SQL. SQL ha un vocabolario limitato rispetto all'inglese, che ha 600.000 parole, o ai linguaggi di programmazione che hanno sintassi e librerie molto più ampie da conoscere. Inoltre, c'è molta SQL là fuori su cui addestrarsi. Se c'è qualcosa, questo dovrebbe essere più facile rispetto ai compiti di ragionamento aperto in cui i modelli ora eccellono. Eppure anche una generazione SQL perfetta non risolverebbe la vera sfida aziendale. Ogni azienda definisce "entrate" in modo diverso. Il marketing misura il costo di acquisizione dei clienti in base alla spesa della campagna, le vendite lo calcolano utilizzando i costi degli account executive e la finanza include le spese per i dipendenti completamente caricati. Queste differenze semantiche creano confusione che l'accuratezza tecnica non può risolvere. I risultati di Spider 2.0 indicano una verità fondamentale sul lavoro con i dati. La competenza tecnica nella sintassi SQL è solo il punto di partenza. La vera sfida risiede nel contesto aziendale. Comprendere cosa significano i dati, come i diversi team definiscono le metriche e quando i casi limite sono importanti. Come ho scritto in Semantic Cultivators, il ponte tra i dati grezzi e il significato aziendale richiede un giudizio umano che l'attuale IA non può replicare.

GPT-5 è stato lanciato ieri. 94,6% su AIME 2025. 74,9% su SWE-bench. Man mano che ci avviciniamo ai limiti superiori di questi benchmark, essi svaniscono. Ciò che rende GPT-5 e la prossima generazione di modelli rivoluzionari non è la loro conoscenza. È sapere come agire. Per GPT-5 questo avviene a due livelli. Prima, decidere quale modello utilizzare. Ma secondo, e più importante, attraverso la chiamata agli strumenti. Abbiamo vissuto in un'era in cui i LLM hanno padroneggiato il recupero e la riassemblaggio delle conoscenze. La ricerca per i consumatori e la codifica, le applicazioni killer iniziali, sono fondamentalmente sfide di recupero delle conoscenze. Entrambi organizzano le informazioni esistenti in modi nuovi. Abbiamo scalato quelle colline e, di conseguenza, la competizione è più intensa che mai. I modelli di Anthropic, OpenAI e Google stanno convergendo su capacità simili. I modelli cinesi e le alternative open source continuano a spingersi sempre più vicino allo stato dell'arte. Tutti possono recuperare informazioni. Tutti possono generare testo. Il nuovo asse della competizione? La chiamata agli strumenti. La chiamata agli strumenti trasforma i LLM da consulenti ad attori. Compensa due debolezze critiche dei modelli puramente linguistici che non possono essere superate. Prima, l'orchestrazione del flusso di lavoro. I modelli eccellono nelle risposte a colpo singolo ma faticano con processi multi-step e con stato. Gli strumenti consentono loro di gestire flussi di lavoro lunghi, monitorando i progressi, gestendo gli errori, mantenendo il contesto attraverso dozzine di operazioni. Secondo, l'integrazione del sistema. I LLM vivono in un mondo solo testuale. Gli strumenti consentono loro di interfacciarsi in modo prevedibile con sistemi esterni come database, API e software aziendale, trasformando il linguaggio naturale in azioni eseguibili. Nell'ultimo mese ho costruito 58 strumenti AI diversi. Processori di email. Integratori CRM. Aggiornatori di Notion. Assistenti alla ricerca. Ogni strumento estende le capacità del modello in un nuovo dominio. La capacità più importante per l'AI è selezionare rapidamente e correttamente lo strumento giusto. Ogni passo errato uccide l'intero flusso di lavoro. Quando dico “leggi questa email da Y Combinator e trova tutte le startup che non sono nel CRM”, i moderni LLM eseguono una sequenza complessa. Un comando in inglese sostituisce un intero flusso di lavoro. E questo è solo un semplice esempio. Ancora meglio, il modello, correttamente impostato con gli strumenti giusti, può verificare il proprio lavoro che i compiti sono stati completati in tempo. Questo ciclo di auto-verifica crea affidabilità nei flussi di lavoro che è difficile da raggiungere altrimenti. Moltiplica questo per centinaia di dipendenti. Migliaia di flussi di lavoro. I guadagni di produttività si accumulano in modo esponenziale. I vincitori nel futuro mondo dell'AI saranno quelli che sono più sofisticati nell'orchestrare strumenti e instradare le giuste query. Ogni volta. Una volta che quei flussi di lavoro sono prevedibili, è allora che tutti noi diventeremo manager di agenti.

Il 2025 è l'anno degli agenti, e la capacità chiave degli agenti è chiamare strumenti. Quando utilizzo Claude Code, posso dire all'IA di setacciare una newsletter, trovare tutti i link alle startup, verificare che esistano nel nostro CRM, con un solo comando. Questo potrebbe comportare l'uso di due o tre strumenti diversi. Ma ecco il problema: utilizzare un grande modello di fondazione per questo è costoso, spesso limitato in termini di frequenza, e sovradimensionato per un compito di selezione. Qual è il modo migliore per costruire un sistema agentico con chiamate agli strumenti? La risposta risiede nei modelli di azione piccoli. NVIDIA ha pubblicato un documento convincente che sostiene che "I piccoli modelli di linguaggio (SLM) sono sufficientemente potenti, intrinsecamente più adatti e necessariamente più economici per molte invocazioni nei sistemi agentici." Ho testato diversi modelli locali per convalidare un esercizio di riduzione dei costi. Ho iniziato con un modello Qwen3:30b, che funziona ma può essere piuttosto lento perché è un modello così grande, anche se solo 3 miliardi di quei 30 miliardi di parametri sono attivi in un dato momento. Il documento NVIDIA raccomanda il modello Salesforce xLAM - un'architettura diversa chiamata modello di azione grande specificamente progettata per la selezione degli strumenti. Quindi, ho eseguito un test personale, ogni modello chiamando uno strumento per elencare i miei compiti su Asana. I risultati sono stati sorprendenti: xLAM ha completato i compiti in 2,61 secondi con il 100% di successo, mentre Qwen ha impiegato 9,82 secondi con il 92% di successo - quasi quattro volte di più. Questo esperimento mostra il guadagno di velocità, ma c'è un compromesso: quanto intelletto dovrebbe risiedere nel modello rispetto agli strumenti stessi. Questo è limitato. Con modelli più grandi come Qwen, gli strumenti possono essere più semplici perché il modello ha una migliore tolleranza agli errori e può aggirare interfacce mal progettate. Il modello compensa le limitazioni degli strumenti attraverso il ragionamento di forza bruta. Con modelli più piccoli, il modello ha meno capacità di recuperare dagli errori, quindi gli strumenti devono essere più robusti e la logica di selezione più precisa. Questo potrebbe sembrare una limitazione, ma in realtà è una caratteristica. Questa restrizione elimina il tasso di errore cumulativo degli strumenti a catena LLM. Quando i grandi modelli effettuano chiamate sequenziali agli strumenti, gli errori si accumulano in modo esponenziale. I piccoli modelli di azione costringono a una migliore progettazione del sistema, mantenendo il meglio degli LLM e combinandolo con modelli specializzati. Questa architettura è più efficiente, più veloce e più prevedibile.

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari