Środowisko oceny Arena-Hard zostało teraz połączone z Atropos - ciesz się skalowalną, elastyczną i nowoczesną oceną dzięki benchmarkowi arena-hard od @lmsysorg, który doskonale określa szeroki zakres możliwości modeli. Gotowe, aby stać się środowiskiem RL, jeśli przyniesiesz własny zestaw treningowy :) Dowiedz się więcej na
6,79K