GPT-5 は昨日発売されました。AIME 2025 では 94.6%。SWEベンチで74.9%。 これらのベンチマークの上限に近づくと、ベンチマークは死んでしまいます。 GPT-5 と次世代モデルを革命的なものにしているのは、彼らの知識ではありません。それは行動する方法を知ることです。GPT-5 の場合、これは 2 つのレベルで発生します。まず、使用するモデルを決定します。しかし、第二に、そしてより重要なことは、ツール呼び出しです。 私たちは、LLM が知識の検索と再構成を習得した時代に生きてきました。最初のキラーアプリケーションである消費者検索とコーディングは、基本的に知識検索の課題です。どちらも既存の情報を新しい方法で整理します。 私たちはそれらの丘を登り、その結果、競争はこれまで以上に激化しています。Anthropic、OpenAI、Google のモデルも同様の機能に収束しています。中国のモデルとオープンソースの代替手段は、最先端に近づき続けています。誰もが情報を取得できます。誰でもテキストを生成できます。 競争の新たな軸?ツール呼び出し。 ツールコールは、LLM をアドバイザーからアクターに変えます。これは、純粋な言語モデルでは克服できない 2 つの重大なモデルの弱点を補います。 まず、ワークフローのオーケストレーションです。モデルはシングルショット応答に優れていますが、マルチステップのステートフルプロセスには苦労します。ツールを使用すると、長いワークフローの管理、進捗状況の追跡、エラーの処理、数十の操作にわたるコンテキストの維持が可能になります。 第二に、システム統合。LLM はテキストのみの世界に住んでいます。ツールを使用すると、データベース、API、エンタープライズ ソフトウェアなどの外部システムと予測どおりに連携し、自然言語を実行可能なアクションに変換できます。 先月、私は 58 種類の AI ツールを構築しました。 電子メールプロセッサ。CRMインテグレーター。Notion アップデーター。研究助手。各ツールは、モデルの機能を新しいドメインに拡張します。 AI にとって最も重要な機能は、適切なツールを迅速かつ正確に選択することです。ステップのルーティングを間違えるたびに、ワークフロー全体が停止します。 私が「Y Combinator からのこのメールを読んで、CRM にないすべてのスタートアップを見つけてください」と言うと、最新の LLM は複雑なシーケンスを実行します。 英語の 1 つのコマンドがワークフロー全体を置き換えます。そして、これは単なる単純なものです。 さらに良いことに、適切なツールを使用して適切にセットアップされたモデルは、タスクが時間通りに完了したことを独自の作業で検証できます。この自己検証ループにより、他の方法では達成が困難なワークフローの信頼性が生まれます。 これを何百人もの従業員に掛け合わせます。何千ものワークフロー。生産性の向上は指数関数的に複合的に増加します。 将来の AI の世界での勝者は、ツールのオーケストレーションと適切なクエリのルーティングに最も精通している人になるでしょう。いつも。これらのワークフローが予測可能になったら、そのとき私たちは皆、エージェントマネージャーになります。
3.18K