o pre CoT era o melhor porque você tinha liberdade para estruturar o CoT como quisesse. o gpt4-0314 era incrível para isso. Uma vez que eles incorporaram o CoT, as coisas começaram a descer. Todos os prompts passaram a estar sujeitos às mesmas abstrações. Tudo o que faz é inundar a janela de contexto para guiar as saídas. Mesmo no gpt 3.5, as pessoas sabiam que as melhores saídas vinham depois de "preparar a bomba" para fornecer algum contexto. A obsessão em conseguir fazer tudo de uma só vez tornou o produto menos maleável.
steve hsu
steve hsu8/08, 07:29
O Raciocínio Chain-of-Thought dos LLMs é uma Ilusão? ... Nossos resultados revelam que o raciocínio CoT é uma ilusão frágil que desaparece quando é levado além das distribuições de treinamento. Este trabalho oferece uma compreensão mais profunda de por que e quando o raciocínio CoT falha, enfatizando o desafio contínuo de alcançar um raciocínio genuíno e generalizável. ... Nossas descobertas revelam que o raciocínio CoT funciona efetivamente quando aplicado a dados dentro da distribuição ou próximos da distribuição, mas torna-se frágil e propenso a falhas mesmo sob mudanças moderadas de distribuição. Em alguns casos, os LLMs geram passos de raciocínio fluentes, mas logicamente inconsistentes. Os resultados sugerem que o que parece ser um raciocínio estruturado pode ser uma ilusão, emergindo de padrões memorizados ou interpolados nos dados de treinamento, em vez de inferência lógica. ... Juntas, essas descobertas sugerem que os LLMs não são raciocinadores principiais, mas sim simuladores sofisticados de texto semelhante ao raciocínio.
1,67K