pre CoT var best fordi du hadde frihet til å strukturere CoT slik du ville. GPT4-0314 var kjempebra for dette. Når de bakte inn CoT, begynte ting å gå nedoverbakke. Alle oppfordringer ble gjenstand for de samme abstraksjonene. Alt den gjør er å oversvømme kontekstvinduet for å veilede utganger. Selv i gpt 3.5 visste folk at de beste resultatene kom etter å ha "primet pumpen" for å gi litt ramme. Besettelsen av å kunne one-shot alt gjorde produktet mindre formbart.
steve hsu
steve hsu8. aug., 07:29
Er tankekjede-resonnement av LLM-er en luftspeiling? ... Resultatene våre avslører at CoT-resonnement er en sprø luftspeiling som forsvinner når den skyves utover opplæringsdistribusjoner. Dette arbeidet gir en dypere forståelse av hvorfor og når CoT-resonnement mislykkes, og understreker den pågående utfordringen med å oppnå ekte og generaliserbar resonnement. ... Våre funn viser at CoT-resonnement fungerer effektivt når det brukes på in-distribusjon eller nær data i distribusjonen, men blir skjøre og utsatt for feil selv under moderate distribusjonsskift. I noen tilfeller genererer LLM-er flytende, men logisk inkonsekvente resonneringstrinn. Resultatene antyder at det som ser ut til å være strukturert resonnement kan være en luftspeiling, som kommer fra memorerte eller interpolerte mønstre i treningsdataene i stedet for logisk slutning. ... Sammen tyder disse funnene på at LLM-er ikke er prinsipielle resonnerenere, men snarere sofistikerte simulatorer av resonneringslignende tekst.
1,68K