Является ли рассуждение в стиле цепочки мыслей (Chain-of-Thought Reasoning) у LLM миражом? ... Наши результаты показывают, что рассуждение в стиле CoT является хрупким миражом, который исчезает, когда его выводят за пределы обучающих распределений. Эта работа предлагает более глубокое понимание того, почему и когда рассуждение CoT терпит неудачу, подчеркивая постоянную проблему достижения подлинного и обобщаемого рассуждения. ... Наши выводы показывают, что рассуждение CoT эффективно работает, когда применяется к данным в распределении или близким к ним, но становится хрупким и подверженным сбоям даже при умеренных изменениях распределения. В некоторых случаях LLM генерируют беглые, но логически несогласованные шаги рассуждения. Результаты предполагают, что то, что кажется структурированным рассуждением, может быть миражом, возникающим из запомненных или интерполированных паттернов в обучающих данных, а не из логического вывода. ... Вместе эти выводы предполагают, что LLM не являются принципиальными рассуждателями, а скорее сложными симуляторами текстов, похожих на рассуждения.
2508.01191v2.pdf
43,96K