Arena-Hard eval-miljön är nu sammanslagen med Atropos - njut av skalbar, flexibel och modern utvärdering med @lmsysorg:s arena-hard benchmark som är mycket bra på att bestämma ett brett spektrum av förmågor i modeller. Redo att vara en RL-miljö om du tar med ditt eget tågset också :) Läs mer på
6,83K