For å presse åpen kildekode-grensen for RL + LLM-er, trenger vi skalerbare, modulære miljøer med kompleksitet i den virkelige verden, utover matematiske benchmarks. I dag lanserer vi *benchmax*. Et rammeverk med åpen kildekode for å bygge, kjøre og skalere nyttige RL-envs for LLM-finjustering, med integrasjoner til verl og verifikatorer (mer kommer snart!).
10,59K