Щоб розширити кордон відкритого вихідного коду для RL + LLM, нам потрібні масштабовані, модульні середовища з реальною складністю, що виходить за рамки математичних стандартів. Сьогодні ми випускаємо *benchmax*. Фреймворк з відкритим вихідним кодом для створення, запуску та масштабування корисних RL envs для тонкого налаштування LLM, з інтеграцією з verl та верифікаторами (скоро буде більше!).
10,6K