L'ambiente di valutazione Arena-Hard è ora integrato in Atropos - goditi una valutazione scalabile, flessibile e moderna con il benchmark arena-hard di @lmsysorg, che è molto efficace nel determinare una vasta gamma di capacità nei modelli. Pronto per essere un ambiente RL se porti il tuo set di addestramento! :) Scopri di più su
6,79K