Среда оценки Arena-Hard теперь объединена с Atropos - наслаждайтесь масштабируемой, гибкой и современной оценкой с помощью бенчмарка arena-hard от @lmsysorg, который отлично определяет широкий спектр возможностей моделей. Готова стать средой RL, если вы принесете свой собственный набор для обучения :) Узнайте больше на
6,83K