"Даже передовые модели испытывают трудности с обновлением за пределами предобученных приоритетов, независимо от того, насколько убедительны новые доказательства." Мы обучаем аспирантов делать это! Могут ли трансформеры сделать это без изменения своих весов?
steve hsu
steve hsu8 авг., 07:29
Является ли рассуждение в стиле цепочки мыслей (Chain-of-Thought Reasoning) у LLM миражом? ... Наши результаты показывают, что рассуждение в стиле CoT является хрупким миражом, который исчезает, когда его выводят за пределы обучающих распределений. Эта работа предлагает более глубокое понимание того, почему и когда рассуждение CoT терпит неудачу, подчеркивая постоянную проблему достижения подлинного и обобщаемого рассуждения. ... Наши выводы показывают, что рассуждение CoT эффективно работает, когда применяется к данным в распределении или близким к ним, но становится хрупким и подверженным сбоям даже при умеренных изменениях распределения. В некоторых случаях LLM генерируют беглые, но логически несогласованные шаги рассуждения. Результаты предполагают, что то, что кажется структурированным рассуждением, может быть миражом, возникающим из запомненных или интерполированных паттернов в обучающих данных, а не из логического вывода. ... Вместе эти выводы предполагают, что LLM не являются принципиальными рассуждателями, а скорее сложными симуляторами текстов, похожих на рассуждения.
12,28K