Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Baru saja menggabungkan PR untuk lingkungan untuk meningkatkan LLM sebagai Hakim serta mengevaluasi model tentang kemampuan mereka dalam melakukan penilaian!
Tahukah Anda bahwa semua lingkungan RL yang dapat diverifikasi hampir setara dengan tolok ukur (dan sebaliknya!)? Jadi kami menambahkan perintah evaluasi ke basis Atropos dan sekarang Anda dapat menjalankan tolok ukur melalui lingkungan Atropos.
Kami frustrasi bekerja dengan begitu banyak kerangka kerja tolok ukur yang kedaluwarsa atau tidak dapat digunakan, jadi kami menerapkan mode evaluasi saja ke Atropos, kerangka kerja lingkungan RL kami.
Jadi port pertama kami dari luar lingkungan kami yang ada adalah Reward-Bench @natolambert!
Catatan: ini hanya mendukung model hadiah generatif (Juri LLM reguler) saat ini.
Simak PR di sini:

20,61K
Teratas
Peringkat
Favorit