Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 jest już dostępny!
Nasz framework RL Environments przeszedł wiele ulepszeń od v0.2 - oto niektóre z nich:
- Atropos może teraz być używany jako framework do benchmarkingu i oceniania przez @rogershijin, z naszym pierwszym zewnętrznym benchmarkiem, Reward-Bench 2!
- Dodano Reasoning Gym, zewnętrzny repozytor środowisk gym przeniesiony do Atropos z ponad 100 zadaniami związanymi z rozumowaniem od @neurosp1ke i przyjaciół.
- @max_paperclips zintegrował bootcamp rozumowania @intern_lm, dodając ponad 1000 nowych zadań rozumowania dla RL.
- @dmayhem93, główny inżynier Atropos, dodał dziesiątki poprawek błędów oraz inne ulepszenia niezawodności i kompatybilności, lepsze wsparcie dla wielu środowisk oraz CI/CD.
- Wiele środowisk hackathonowych Atropos zostało połączonych w /environments/community - wymienienie ich wszystkich zajęłoby większość miejsca na ekranie, ale oto niektóre z nich:
VR-CLI od @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, projektowanie białek od @hallerite, środowisko routingu modeli od @gabinfay, wiele na dowodzenie lean, arena catbota, pokemon showdown, poker, pomocni lekarze, poezja sanskrycka od @khoomeik i wiele więcej!
- Inne godne uwagi nowo dodane oficjalnie wspierane środowiska to:
Format odpowiedzi zgodny ze środowiskiem
Środowisko Pydantic do JSON przeniesione z pracy @MatternJustus
Podążanie za instrukcjami przeniesione z pracy @natolambert i @allen_ai
Liczenie liter
- 47 zupełnie nowych współpracowników!
Sprawdź pełną listę zmian tutaj:

18 lip 2025
Właśnie połączyłem PR dla środowiska, aby poprawić LLM jako Sędziego oraz oceniać modele pod kątem ich zdolności do wydawania wyroków!
Czy wiesz, że wszystkie weryfikowalne środowiska RL są niemal równoważne benchmarkom (i odwrotnie!)? Dlatego dodaliśmy polecenie oceny do podstawy Atropos i teraz możesz uruchamiać benchmarki przez środowiska Atropos.
Byliśmy sfrustrowani pracą z tak wieloma przestarzałymi lub nieużywalnymi frameworkami benchmarkowymi, więc wdrożyliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL.
Naszym pierwszym portem z zewnątrz naszych istniejących środowisk był Reward-Bench @natolambert!
Uwaga: obecnie obsługuje tylko generatywne modele nagród (zwykli Sędziowie LLM).
Sprawdź PR tutaj:

25,03K
Najlepsze
Ranking
Ulubione