المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Paul Graham أعاد النشر
يصعب أحيانا فهم أهمية التحديثات المنطقية والمنطقية التي بدأت تظهر في النماذج القوية ، مثل GPT-5. فيما يلي مثال * بسيط للغاية * لمدى قوة هذه النماذج.
لقد أخذت مستند حديث لنسخة مكالمة أرباح NVIDIA جاء في 23 صفحة ويحتوي على 7,800 كلمة. أخذت جزءا من الجملة "وسيتحسن الهامش الإجمالي ويعود إلى منتصف السبعينيات" وقمت بتعديل "منتصف السبعينيات" إلى "منتصف الستينيات".
بالنسبة للمحلل المالي المضبوطة عن بعد ، قد يبدو هذا في غير محله ، لأن الهوامش لن "تتحسن وتعود" إلى رقم أقل من الرقم الموصوف بأنه رقم أعلى في مكان آخر. ولكن ربما لم يكتشف 95٪ من الأشخاص الذين يقرؤون هذا البيان الصحفي التعديل لأنه يتناسب بسهولة مع الكلمات الأخرى البالغ عددها 7,800 كلمة التي تم ذكرها.
باستخدام Box الذكاء الاصطناعي ، واختبار مجموعة متنوعة من نماذج الذكاء الاصطناعي ، سألت سلسلة من النماذج "هل هناك أي أخطاء منطقية في هذا المستند؟ يرجى تقديم إجابة من جملة واحدة ".
عادت GPT-4.1 و GPT4.1 mini وحفنة من الطرز الأخرى التي كانت على أحدث طراز منذ ~ 6 أشهر فقط وعادت بشكل عام إلى عدم وجود أخطاء منطقية في المستند. بالنسبة لهذه النماذج ، ربما تبدو الوثيقة متماسكة وتتبع ما تتوقع أن يبدو عليه نص الأرباح ، لذلك لا يوجد شيء يبرز حقا بالنسبة لهم بشأن ما يجب الانتباه إليه - نوع من الهلوسة العكسية.
من ناحية أخرى ، اكتشف GPT-5 المشكلة بسرعة واستجاب ب:
"نعم - تحتوي الوثيقة على تناقض داخلي حول توجيه الهامش الإجمالي ، في وقت من الأوقات تقول إن الهوامش "ستعود إلى منتصف الستينيات" وتقول لاحقا إنها ستكون "في منتصف السبعينيات" في وقت لاحق من هذا العام.
بشكل مثير للدهشة ، حدث هذا مع GPT-5 و GPT-5 mini ، ومن اللافت للنظر ، * حتى * GPT-5 nano. ضع في اعتبارك أن الرموز المميزة للإخراج ل GPT-5 nano يتم تسعيرها عند 1/20 من رموز GPT-4.1. لذلك ، أكثر ذكاء (في حالة الاستخدام هذه) مقابل 5٪ من التكلفة.
الآن ، في حين أن إجراء مراجعات للأخطاء على مستندات الأعمال لا يحدث في كثير من الأحيان حدثا يوميا لكل عامل معرفي ، تظهر هذه الأنواع من المشكلات بعدة طرق عند التعامل مع مجموعات البيانات الكبيرة غير المهيكلة ، مثل المستندات المالية والعقود والنصوص والتقارير والمزيد. يمكن أن يكون العثور على حقيقة ، أو اكتشاف مغالطة منطقية ، أو تشغيل افتراضي ، أو طلب تفكير استنتاجي متطور.
وتصبح القدرة على تطبيق المزيد من المنطق والمنطق على بيانات المؤسسة أمرا بالغ الأهمية بشكل خاص عند نشر وكلاء الذكاء الاصطناعي في المؤسسة. لذلك ، من المدهش أن نرى التطورات في هذا المجال في الوقت الحالي ، وهذا سيفتح الكثير من حالات الاستخدام للشركات.
93.63K
Paul Graham أعاد النشر
نحن نستضيف حدث هندسة السياق في سان فرانسيسكو!
تعرف على كيفية قيام فرق الذكاء الاصطناعي التطبيقي الرائدة بهندسة نوافذ السياق الخاصة بهم. اسمع من:
جيك هيلر ، الرئيس التنفيذي لشركة @Casetext
بيانغ ليو ، CTO @Sourcegraph
سام بهاجوات ، الرئيس التنفيذي @Mastra_ai
جيف هوبر ، الرئيس التنفيذي @trychroma
الرد على الدعوة:

65.01K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
رائج على السلسة
رائج على منصة X
أهم عمليات التمويل الأخيرة
الأبرز