热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
有时候很难理解在强大模型(如GPT-5)中开始出现的推理和逻辑更新的重要性。这里有一个*非常简单*的例子,说明这些模型变得多么强大。
我拿了一份最近的NVIDIA财报电话会议的文字记录,长达23页,共有7800个单词。我将句子的一部分“毛利率将改善并回到中70%”中的“中70%”修改为“中60%”。
对于一位远程关注的金融分析师来说,这看起来不合适,因为毛利率不会“改善并回到”一个比其他地方描述的更高数字还要低的数字。但大概95%阅读这份新闻稿的人不会发现这个修改,因为它很容易融入到提到的其他7800个单词中。
通过Box AI,测试各种AI模型,我接着问了一系列模型:“这份文件中有没有逻辑错误?请提供一句话的答案。”
GPT-4.1、GPT-4.1 mini以及几款大约6个月前的顶尖模型通常返回的结果是文件中没有逻辑错误。对于这些模型来说,这份文件可能看起来连贯,并符合它们对财报记录的预期,因此没有什么特别突出的地方需要它们关注——有点像反向幻觉。
而GPT-5则迅速发现了问题,并回应道:
“是的——该文件在毛利率指导方面存在内部不一致,一方面说毛利率将‘回到中60%’,而另一方面则说它们将在今年晚些时候‘处于中70%’。”
令人惊讶的是,这一发现发生在GPT-5、GPT-5 mini,甚至*连*GPT-5 nano上。请记住,GPT-5 nano的输出令牌价格是GPT-4.1令牌的1/20。因此,在这个用例中,5%的成本获得了更智能的表现。
现在,虽然对商业文件进行错误审查并不是每个知识工作者的日常工作,但在处理大型非结构化数据集(如财务文件、合同、记录、报告等)时,这类问题会以多种方式出现。可能是发现一个事实,找出一个逻辑谬误,进行假设推理,或需要复杂的推理能力。
而在企业中应用更多逻辑和推理能力变得尤为重要,尤其是在部署AI代理时。因此,看到这一领域的进展真是令人惊叹,这将为企业打开更多的用例。
129.49K
热门
排行
收藏