トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Paul Graham reposted
GPT-5のような強力なモデルで出現し始めている推論と論理の更新の重要性を理解するのが難しい場合があります。これらのモデルがどれほど強力になっているかを示す*非常に単純な*例を次に示します。
私は最近の NVIDIA 決算説明会の議事録文書を取り上げましたが、その文書は 23 ページの長さで、7,800 語でした。「粗利益率は改善し、70年代半ばに戻る」という文の一部を取り上げ、「70年代半ば」を「60年代半ば」に修正しました。
遠隔地で調整している金融アナリストにとって、マージンは他の場所でより高い数字として説明されているものよりも低い数字に「改善して戻る」わけではないため、これは場違いに見えます。しかし、おそらくこのプレスリリースを読んでいる人の95%は、言及されている他の7,800語に簡単に収まるため、この変更に気付かなかったでしょう。
Box AIを使用して、さまざまなAIモデルをテストし、一連のモデルに「このドキュメントに論理的な誤りはありますか?一文で答えてください。」
GPT-4.1、GPT4.1 mini、およびわずか ~ 6 か月前に最先端だった他のいくつかのモデルは、一般的に戻ってきて、ドキュメントに論理的なエラーはなかったと返ってきました。これらのモデルの場合、この文書はおそらく首尾一貫しているように見え、収益記録がどのようなものになるかを期待しているため、何に注意を払うべきかについて、彼らにとって特に目立ったものは何もありません。
一方、GPT-5 は問題をすぐに発見し、次のように対応しました。
「はい、この文書には粗利益率のガイダンスに関する内部の矛盾が含まれており、一時は利益率が「60代半ばに戻る」と述べていましたが、その後、今年後半には「70代半ばになる」と述べています。」
驚くべきことに、これはGPT-5、GPT-5 mini、そして驚くべきことに、GPT-5 nanoでも起こりました。GPT-5 nanoの出力トークンの価格は、GPT-4.1のトークンの1/20であることに注意してください。したがって、(このユースケースでは)5%のコストでよりインテリジェントになります。
ビジネス文書のエラーレビューは、すべてのナレッジワーカーにとって日常的に行われることはあまりありませんが、財務文書、契約書、トランスクリプト、レポートなどの大規模な非構造化データセットを扱う場合、この種の問題はさまざまな形で現れます。それは、事実を見つけたり、論理的誤謬を解明したり、仮説を実行したり、高度な演繹的推論を必要としたりすることである可能性があります。
また、企業データにより多くのロジックと推論を適用する機能は、企業にAIエージェントを導入する場合に特に重要になります。したがって、現在、この分野の進歩を見るのは驚くべきことであり、これにより企業にさらに多くのユースケースが開かれることになるでしょう。
93.63K
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable