Pre CoT byl nejlepší, protože jste měli svobodu strukturovat CoT tak, jak jste chtěli. GPT4-0314 byl za to úžasný. Jakmile se peklo v CoT, začalo to jít z kopce. Všechny podněty se staly předmětem stejných abstrakcí. Jediné, co dělá, je zaplavení kontextového okna pro vedení výstupů. Dokonce i v gpt 3.5 lidé věděli, že nejlepší výstupy přicházejí po "naplnění čerpadla", aby poskytly nějaký rámec. Posedlost možností dělat všechno na jeden zátah způsobila, že produkt byl méně tvárný.
steve hsu
steve hsu8. 8. 07:29
Je řetězové uvažování LLM fata morgánou? ... Naše výsledky ukazují, že uvažování CoT je křehký přelud, který zmizí, když je posunut za hranice distribuce tréninku. Tato práce nabízí hlubší pochopení toho, proč a kdy uvažování CoT selhává, a zdůrazňuje přetrvávající výzvu k dosažení autentického a zobecnitelného uvažování. ... Naše zjištění ukazují, že CoT uvažování funguje efektivně, když je aplikováno na in-distribuci nebo blízko v distribuci, ale stává se křehkým a náchylným k selhání i při mírných distribučních posunech. V některých případech LLM generují plynulé, ale logicky nekonzistentní kroky uvažování. Výsledky naznačují, že to, co se zdá být strukturovaným uvažováním, může být fata morgána, vycházející z naučených nebo interpolovaných vzorců v trénovacích datech, spíše než z logické dedukce. ... Společně tato zjištění naznačují, že LLM nejsou principiální uvažovatelé, ale spíše sofistikované simulátory textu podobného uvažování.
1,68K