DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Paul Graham

Paul Graham a reposté

Il est parfois difficile de saisir l'importance des mises à jour de raisonnement et de logique qui commencent à émerger dans des modèles puissants, comme GPT-5. Voici un *très simple* exemple de la puissance de ces modèles. J'ai pris un document de transcription d'appel de résultats d'NVIDIA récent qui faisait 23 pages et contenait 7 800 mots. J'ai pris une partie de la phrase "et la marge brute va s'améliorer et revenir dans les mid-70s" et j'ai modifié "mid-70s" en "mid-60s". Pour un analyste financier à l'écoute, cela semblerait déplacé, car les marges ne pourraient pas "s'améliorer et revenir" à un chiffre inférieur à celui décrit comme un chiffre supérieur ailleurs. Mais probablement 95 % des personnes lisant ce communiqué de presse n'auraient pas remarqué la modification car elle s'intègre facilement dans les autres 7 800 mots mentionnés. Avec Box AI, en testant une variété de modèles d'IA, j'ai ensuite demandé à une série de modèles "Y a-t-il des erreurs logiques dans ce document ? Veuillez fournir une réponse en une phrase." GPT-4.1, GPT-4.1 mini, et une poignée d'autres modèles qui étaient à la pointe de la technologie il y a environ 6 mois sont généralement revenus en disant qu'il n'y avait pas d'erreurs logiques dans le document. Pour ces modèles, le document semble probablement cohérent et suit ce à quoi ils s'attendraient pour une transcription de résultats, donc rien ne se démarque vraiment pour eux sur quoi prêter attention - une sorte d'hallucination inversée. GPT-5, en revanche, a rapidement découvert le problème et a répondu : "Oui — le document contient une incohérence interne concernant les prévisions de marge brute, disant à un moment que les marges "retourneront dans les mid-60s" et plus tard disant qu'elles seront "dans les mid-70s" plus tard cette année." Étonnamment, cela s'est produit avec GPT-5, GPT-5 mini, et, remarquablement, *même* GPT-5 nano. Gardez à l'esprit que les tokens de sortie de GPT-5 nano sont tarifés à 1/20 du prix des tokens de GPT-4.1. Donc, plus intelligent (pour ce cas d'utilisation) pour 5 % du coût. Maintenant, bien que faire des revues d'erreurs sur des documents commerciaux ne soit pas souvent une occurrence quotidienne pour chaque travailleur du savoir, ces types de problèmes apparaissent de diverses manières lorsqu'on traite de grands ensembles de données non structurées, comme des documents financiers, des contrats, des transcriptions, des rapports, et plus encore. Cela peut être de trouver un fait, de comprendre une fallacie logique, de faire une hypothèse, ou de nécessiter un raisonnement déductif sophistiqué. Et la capacité d'appliquer plus de logique et de raisonnement aux données d'entreprise devient particulièrement critique lors du déploiement d'agents IA dans l'entreprise. Donc, c'est incroyable de voir les avancées dans cet espace en ce moment, et cela va ouvrir un tas de nouveaux cas d'utilisation pour les entreprises.

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables