المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أعتقد أن GPT-5 يجب أن يكون تحديثا صغيرا فقط مقابل الجداول الزمنية القصيرة.
يجادل EPOCH بأن GPT-5 لا يعتمد على توسيع نطاق النموذج الأساسي. لنفترض أن هذا صحيح.
ماذا يقول هذا عن التدريب المسبق؟
الخيار 1: اصطدم التحجيم قبل التدريب بالحائط (أو على الأقل خفض المكاسب بشكل كبير).
الخيار 2: يستغرق الأمر وقتا أطول للحصول على الخطوة التالية قبل التدريب بشكل صحيح. لا يوجد حد أساسي. نحن فقط لم نكتشف ذلك بعد.
الخيار 3: لا يوجد جدار ما قبل التدريب ، فقط الاقتصاد الأساسي. قد لا تتطلب معظم المهام التي يستخدم الأشخاص النماذج من أجلها في الوقت الحالي نماذج أساسية أكبر ، لذا فإن التركيز على قابلية الاستخدام أكثر أهمية.
ما هو المطلوب ل AGI؟
الخيار 1: يلزم إجراء المزيد من التحسينات على الطراز الأساسي.
الخيار 2: RL هو كل ما تحتاجه. ستتوسع النماذج الأساسية الحالية على طول الطريق إذا ألقينا ما يكفي من RL عليها.
يبدو أن الجداول الزمنية تتأثر فقط إذا تطلب الأمر جدار ما قبل التدريب والمزيد من التحسينات. في جميع العوالم الأخرى ، لا توجد تحديثات رئيسية.
أنا شخصيا أعتقد أن GPT-5 يجب أن يكون تحديثا صغيرا نحو الجداول الزمنية البطيئة ، لكن معظم معتقداتي القصيرة في الجدول الزمني تأتي من تحجيم RL على أي حال.
5.86K
الأفضل
المُتصدِّرة
التطبيقات المفضلة