كان ما قبل CoT هو الأفضل لأنه كان لديك الحرية في هيكلة CoT بالطريقة التي تريدها. كان GPT4-0314 رائعا لهذا الغرض. بمجرد أن خبزوا في CoT بدأت الأمور في الانحدار. أصبحت جميع المطالبات خاضعة لنفس التجريد. كل ما يفعله هو إغراق نافذة السياق لتوجيه المخرجات. حتى في gpt 3.5 ، عرف الناس أن أفضل المخرجات جاءت بعد "تجهيز المضخة" لتوفير بعض الإطارات. الهوس بالقدرة على التقاط كل شيء لمرة واحدة جعل المنتج أقل مرونة.
steve hsu
steve hsu‏8 أغسطس، 07:29
هل التفكير في سلسلة التفكير في LLMs سراب؟ ... تكشف نتائجنا أن منطق CoT هو سراب هش يختفي عندما يتم دفعه إلى ما هو أبعد من توزيعات التدريب. يقدم هذا العمل فهما أعمق لسبب ومتى يفشل منطق CoT ، مع التأكيد على التحدي المستمر المتمثل في تحقيق منطق حقيقي وقابل للتعميم. ... تكشف النتائج التي توصلنا إليها أن منطق CoT يعمل بشكل فعال عند تطبيقه على التوزيع أو بالقرب منه البيانات أثناء التوزيع ولكنها تصبح هشة وعرضة للفشل حتى في ظل تحولات التوزيع المعتدلة. في بعض الحالات ، تولد LLMs خطوات تفكير بطلاقة ولكنها غير متسقة منطقيا. تشير النتائج إلى أن ما يبدو أنه تفكير منظم يمكن أن يكون سرابا ، ينبثق من أنماط محفوظة أو مقحمة في بيانات التدريب بدلا من الاستدلال المنطقي. ... تشير هذه النتائج معا إلى أن LLMs ليست منطقية مبدئية بل هي محاكيات متطورة للنص الشبيه بالتفكير.
‏‎1.84‏K