pre CoT var det bästa eftersom du hade frihet att strukturera CoT hur du ville. GPT4-0314 var fantastiskt för detta. När de väl bakade i CoT började det gå utför. Alla prompter blev föremål för samma abstraktioner. Allt det gör är att översvämma kontextfönstret för att vägleda utdata. Till och med i gpt 3,5 visste man att de bästa resultaten kom efter att man "primat pumpen" för att ge lite ram. Besattheten av att kunna ta allt på en gång gjorde produkten mindre formbar.
steve hsu
steve hsu8 aug. 07:29
Är LLM:s kedjeresonemang en hägring? ... Våra resultat visar att CoT-resonemang är en skör hägring som försvinner när den pressas bortom träningsfördelningar. Detta arbete ger en djupare förståelse för varför och när CoT-resonemang misslyckas, med betoning på den pågående utmaningen att uppnå genuina och generaliserbara resonemang. ... Våra resultat visar att CoT-resonemang fungerar effektivt när det tillämpas på in-distribution eller nära data i distributionen, men blir bräcklig och benägen att misslyckas även under måttliga fördelningsförändringar. I vissa fall genererar LLM:er flytande men ändå logiskt inkonsekventa resonemangssteg. Resultaten tyder på att det som verkar vara strukturerat resonemang kan vara en hägring, som uppstår från memorerade eller interpolerade mönster i träningsdata snarare än logisk slutsats. ... Tillsammans tyder dessa resultat på att LLM:er inte är principiella resonemang utan snarare sofistikerade simulatorer av resonemangsliknande text.
1,75K