pre CoT був найкращим, тому що у вас була свобода структурувати CoT так, як ви хотіли. GPT4-0314 чудово підійшов для цього. Як тільки вони запеклися в CoT, справи пішли під укіс. Всі підказки стали предметом одних і тих же абстракцій. Все, що він робить, це заповнює контекстне вікно, щоб направляти виводи. Навіть у gpt 3.5 люди знали, що найкращі виходи виходять після «заправки насоса», щоб забезпечити певний кадр. Одержимість ідеєю можливості зробити все одним пострілом робила продукт менш податливим.
steve hsu
steve hsu8 серп., 07:29
Чи є міркування ланцюжка думок ЛМ міражем? ... Наші результати показують, що міркування CoT є крихким міражем, який зникає, коли його виштовхують за межі тренувального розподілу. Ця робота пропонує глибше розуміння того, чому і коли міркування CoT зазнають невдачі, наголошуючи на поточній проблемі досягнення справжнього та узагальнюваного міркування. ... Наші результати показують, що міркування CoT ефективно працюють у застосуванні до розподілу або поблизу Дані в розподілі, але стають крихкими і схильними до збоїв навіть при помірних зрушеннях розподілу. У деяких випадках LLM генерують плавні, але логічно непослідовні кроки міркування. Результати свідчать про те, що те, що здається структурованим міркуванням, може бути міражем, що виникає з запам'ятовуваних або інтерпольованих шаблонів у тренувальних даних, а не з логічного висновку. ... У сукупності ці результати свідчать про те, що LLM не є принциповими міркуваннями, а скоріше складними симуляторами тексту, схожого на міркування.
1,66K