Lingkungan eval Arena-Hard sekarang digabungkan ke Atropos - nikmati evaluasi yang dapat diskalakan, fleksibel, dan modern dengan tolok ukur arena-hard @lmsysorg yang sangat bagus dalam menentukan berbagai kemampuan dalam model. Siap menjadi lingkungan RL jika Anda membawa set kereta sendiri juga :) Pelajari lebih lanjut di
6,79K