الآن بعد أن مرت بضع سنوات ، يبدو أن مخاوف سلامة الذكاء الاصطناعي صالحة تجريبيا (مثل قرصنة المكافآت في نماذج الترميز) ، لكن نهج OpenAI "نشر التكرار والتعلم" يعمل بشكل جيد حتى الآن. تتحسن النماذج ، وبعض الأشياء تنكسر ، وتقوم ببناء حواجز حماية كما تذهب ...
حيث ينكسر هذا إذا: 1) ينشر ممثل آخر نماذج قوية في بيئات تبعية بدون هذه الدرابزين في الداخل 2) تبدأ النماذج في التحسن بسرعة كبيرة بحيث لا يمكن لحلقة OODA الخاصة بنا مواكبة ذلك (مثل سيناريو التفرد)
أين ينكسر هذا: 1) ينشر ممثل آخر نماذج قوية في إعدادات تبعية بدون هذه الدرابزين في palce 2) تبدأ النماذج في التحسن بسرعة كبيرة بحيث لا يمكن لحلقة OODA الخاصة بنا مواكبة ذلك (على سبيل المثال ، سيناريو التفرد)
أين ينكسر هذا: 1) ينشر ممثل آخر نماذج قوية في بيئات تبعية بدون وجود هذه الدرابزين في مكانها أو 2) تبدأ النماذج في التحسن بسرعة كبيرة بحيث لا يمكن لحلقة OODA الخاصة بنا مواكبة ذلك (مثل سيناريو التفرد)
‏‎236‏