pre CoT был лучшим, потому что у вас была свобода структурировать CoT так, как вы хотели. gpt4-0314 был потрясающим для этого. Как только они внедрили CoT, дела начали идти на спад. Все подсказки стали подвержены одним и тем же абстракциям. Все, что он делает, это заполняет окно контекста, чтобы направлять выводы. Даже в gpt 3.5 люди знали, что лучшие результаты приходят после "первоначального запуска", чтобы предоставить некоторую рамку. Одержимость возможностью делать все с одного раза сделала продукт менее гибким.
steve hsu
steve hsu8 авг., 07:29
Является ли рассуждение в стиле цепочки мыслей (Chain-of-Thought Reasoning) у LLM миражом? ... Наши результаты показывают, что рассуждение в стиле CoT является хрупким миражом, который исчезает, когда его выводят за пределы обучающих распределений. Эта работа предлагает более глубокое понимание того, почему и когда рассуждение CoT терпит неудачу, подчеркивая постоянную проблему достижения подлинного и обобщаемого рассуждения. ... Наши выводы показывают, что рассуждение CoT эффективно работает, когда применяется к данным в распределении или близким к ним, но становится хрупким и подверженным сбоям даже при умеренных изменениях распределения. В некоторых случаях LLM генерируют беглые, но логически несогласованные шаги рассуждения. Результаты предполагают, что то, что кажется структурированным рассуждением, может быть миражом, возникающим из запомненных или интерполированных паттернов в обучающих данных, а не из логического вывода. ... Вместе эти выводы предполагают, что LLM не являются принципиальными рассуждателями, а скорее сложными симуляторами текстов, похожих на рассуждения.
1,67K