pre CoT era lo mejor porque tenías la libertad de estructurar el CoT como querías. gpt4-0314 fue increíble para esto. Una vez que incorporaron el CoT, las cosas empezaron a ir cuesta abajo. Todos los prompts se convirtieron en sujetos a las mismas abstracciones. Todo lo que hace es inundar la ventana de contexto para guiar las salidas. Incluso en gpt 3.5, la gente sabía que las mejores salidas venían después de "preparar la bomba" para proporcionar algún marco. La obsesión por poder hacerlo todo de un solo golpe hizo que el producto fuera menos maleable.
steve hsu
steve hsu8 ago, 07:29
¿Es el razonamiento de cadena de pensamiento de los LLMs un espejismo? ... Nuestros resultados revelan que el razonamiento CoT es un espejismo frágil que desaparece cuando se empuja más allá de las distribuciones de entrenamiento. Este trabajo ofrece una comprensión más profunda de por qué y cuándo falla el razonamiento CoT, enfatizando el desafío continuo de lograr un razonamiento genuino y generalizable. ... Nuestros hallazgos revelan que el razonamiento CoT funciona de manera efectiva cuando se aplica a datos dentro de la distribución o cerca de ella, pero se vuelve frágil y propenso a fallos incluso bajo cambios moderados en la distribución. En algunos casos, los LLMs generan pasos de razonamiento fluidos pero lógicamente inconsistentes. Los resultados sugieren que lo que parece ser un razonamiento estructurado puede ser un espejismo, emergiendo de patrones memorizados o interpolados en los datos de entrenamiento en lugar de inferencia lógica. ... Juntos, estos hallazgos sugieren que los LLMs no son razonadores con principios, sino más bien simuladores sofisticados de texto similar al razonamiento.
1,67K