GPT-5 昨天发布。AIME 2025 的得分为 94.6%。SWE-bench 的得分为 74.9%。 随着我们接近这些基准的上限,它们逐渐失效。 使 GPT-5 和下一代模型革命性的不是它们的知识,而是知道如何行动。对于 GPT-5,这在两个层面上发生。首先,决定使用哪个模型。但第二,更重要的是,通过工具调用。 我们生活在一个 LLM(大型语言模型)掌握知识检索和重组的时代。消费者搜索和编码,最初的杀手级应用,根本上是知识检索的挑战。两者以新的方式组织现有信息。 我们已经攀登了这些高峰,因此竞争比以往任何时候都更加激烈。Anthropic、OpenAI 和 Google 的模型正在趋向于相似的能力。中国模型和开源替代品正在不断接近最先进的水平。每个人都可以检索信息。每个人都可以生成文本。 新的竞争轴心?工具调用。 工具调用将 LLM 从顾问转变为行动者。它弥补了纯语言模型无法克服的两个关键模型弱点。 首先,工作流编排。模型在单次响应方面表现出色,但在多步骤、有状态的过程中却挣扎。工具使它们能够管理长工作流,跟踪进度,处理错误,在数十个操作中保持上下文。 其次,系统集成。LLM 生活在一个仅限文本的世界。工具使它们能够与外部系统(如数据库、API 和企业软件)进行可预测的接口,将自然语言转化为可执行的操作。 在过去一个月里,我构建了 58 种不同的 AI 工具。 电子邮件处理器。CRM 集成器。Notion 更新器。研究助手。每个工具都将模型的能力扩展到一个新领域。 AI 最重要的能力是快速且正确地选择合适的工具。每一步错误的路线都会毁掉整个工作流。 当我说“阅读这封来自 Y Combinator 的电子邮件并找到所有不在 CRM 中的初创公司”时,现代 LLM 执行一个复杂的序列。 一个英语命令替代了整个工作流。这只是一个简单的例子。 更好的是,模型在正确工具的适当设置下,可以验证自己的工作,确保任务按时完成。这种自我验证循环在工作流中创造了可靠性,而这在其他情况下很难实现。 将这一点乘以数百名员工。数千个工作流。生产力的提升呈指数级增长。 未来 AI 世界的赢家将是那些在编排工具和路由正确查询方面最为复杂的人。每一次。当这些工作流变得可预测时,我们所有人都将成为代理管理者。
3.18K