Para impulsar la frontera de código abierto para RL + LLMs, necesitamos entornos escalables y modulares con complejidad del mundo real, más allá de los benchmarks matemáticos. Hoy, estamos lanzando *benchmax*. Un marco de código abierto para construir, ejecutar y escalar entornos útiles de RL para el ajuste fino de LLM, con integraciones a verl y verificadores (¡más pronto!).
10.6K