pre CoT 是最好的,因為你可以自由地構建 CoT。gpt4-0314 在這方面非常出色。 一旦他們將 CoT 嵌入進去,事情就開始走下坡路。所有提示都變得受到相同抽象的影響。 它所做的只是填充上下文窗口以引導輸出。 即使在 gpt 3.5 中,人們也知道最佳輸出是在 "引導泵" 之後出現的,以提供一些框架。 對於能夠一擊解決所有問題的痴迷使產品變得不那麼靈活。
steve hsu
steve hsu8月8日 07:29
大型語言模型的鏈式思考推理是一種幻影嗎? ... 我們的結果顯示,鏈式思考推理是一種脆弱的幻影,當它被推向超出訓練分佈的範圍時便會消失。這項工作提供了對於鏈式思考推理失敗的原因和時機的更深入理解,強調了實現真正且可泛化推理的持續挑戰。 ... 我們的研究結果顯示,鏈式思考推理在應用於分佈內或接近分佈內的數據時效果良好,但在中等分佈變化下變得脆弱且容易失敗。在某些情況下,大型語言模型生成流暢但邏輯不一致的推理步驟。結果表明,看似結構化的推理可能是一種幻影,源自於訓練數據中記憶或插值的模式,而非邏輯推理。 ... 總的來說,這些發現表明,大型語言模型並不是原則性的推理者,而是推理類文本的複雜模擬器。
1.69K