Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Nous Research a repostat
Mediul de evaluare Arena-Hard este acum fuzionat cu Atropos - bucurați-vă de o evaluare scalabilă, flexibilă și modernă cu benchmark-ul Arena-Hard de la @lmsysorg, care este foarte bun la determinarea unei game largi de capabilități în modele.
Gata să fie un mediu RL dacă îți aduci și propriul tren :)
Aflați mai multe la

6,78K
Cercetătorul nostru rezident @yaboilyrical va discuta despre munca sa privind conducerea SMC la UC Berkeley pe 3 august.
Consultați blogul despre această lucrare aici:
Detalii mai jos!

nightwing25 iul. 2025
Sunt încântat să anunț că voi fi vorbitor la @BerkeleyRDI DeAI Summit, prezentându-mi cercetarea cu @NousResearch despre decodarea limbajului constrâns!
Dacă participați la summit sau doriți să veniți să vedeți discursul meu, vă rog să mă contactați!

10,53K
Atropos v0.3 a fost acum disponibil!
Cadrul nostru RL Environments a cunoscut o mulțime de actualizări de la v0.2 - câteva puncte importante:
- Atropos poate fi acum folosit ca cadru de benchmarking și evaluări de @rogershijin, cu primul nostru benchmark extern, Reward-Bench 2!
- S-a adăugat Reasoning Gym, un depozit de gimnastică de mediu extern portat în atropos cu peste 100 de sarcini de raționament de @neurosp1ke și prieteni
- @max_paperclips bootcamp de raționament integrat @intern_lm, adăugând 1000+ noi sarcini de raționament pentru RL
- @dmayhem93 inginerul șef al Atropos a adăugat zeci de remedieri de erori și alte îmbunătățiri de fiabilitate și compatibilitate, suport mai bun pentru mai multe medii și CI/CD
- Multe dintre mediile hackathon-ului Atropos au fost fuzionate în /environments/community - pentru a le enumera pe toate ar ocupa cea mai mare parte a spațiului de pe ecran, dar câteva puncte importante:
VR-CLI de @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, design de proteine de @hallerite, un mediu de rutare a modelelor de @gabinfay, multiple pe lean proving, arena catbot, pokemon showdown, poker, medici utili, poezie sanscrită de @khoomeik și multe altele!
- Alte medii noi notabile acceptate oficial includ:
Formatul răspunsului urmează mediul
Mediul Pydantic în JSON portat de la @MatternJustus de lucru
Instrucțiuni care urmează portate din munca lui @natolambert și @allen_ai
Numărarea literelor
- 47 de contribuitori noi!
Consultați jurnalul complet de modificări aici:

Teknium (e/λ)18 iul. 2025
Tocmai am fuzionat un PR pentru un mediu care să îmbunătățească LLM ca judecător, precum și să evalueze modele în ceea ce privește capacitatea lor de a face judecăți!
Știați că toate mediile RL verificabile sunt aproape echivalente cu benchmark-urile (și invers!)? Așa că am adăugat o comandă de evaluare la baza lui Atropos și acum puteți rula benchmark-uri prin medii Atropos.
Am fost frustrați să lucrăm cu atât de multe cadre de referință care erau învechite sau inutilizabile, așa că am implementat modul de evaluare în Atropos, cadrul nostru de medii RL.
Așa că primul nostru port din afara mediilor noastre existente a fost @natolambert's Reward-Bench!
Notă: acceptă doar modele de recompensă generativă (judecători LLM obișnuiți) în acest moment.
Consultați PR-ul aici:

25,02K
Nous Research a repostat
A fost distractiv să lucrez cu echipa @huggingface pentru a transforma această caracteristică în realitate! Vă mulțumim pentru toată munca și creativitatea @pcuenq @reach_vb @julien_c @ariG23498 !
De asemenea, mulțumim @NousResearch @Teknium1 @Euclaise_ pentru că ați fost primii care au adoptat caietele personalizate și ați lucrat la asta cu noi!
31,42K
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante