Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Misha Laskin
Medgründer, administrerende direktør i @reflection_ai. Forrige: Forskning @DeepMind. Gemini RL-teamet.
Noe stort kommer til å skje i morgen. Dette er noen av de mest talentfulle forskerne jeg kjenner

Deepak Pathak28. juli 2025
Heldig som jobber med et fantastisk team @SkildAI. Sjekk ut teaseren av tiår lange bidrag fra teamet vårt før Skild AI.
Følg med for utgivelsen i morgen!
2,41K
Misha Laskin lagt ut på nytt
Jeg var en av de 16 utviklerne i denne studien. Jeg ønsket å snakke om mine meninger om årsakene og avbøtende strategier for utviklingsforsinkelser.
Jeg vil si som en "hvorfor høre på deg?" krok at jeg opplevde en -38 % AI-hastighet på mine tildelte problemer. Jeg tror åpenhet hjelper samfunnet.

1,96M
Det største spørsmålet i RL-forskning har alltid vært - hvilket miljø trener du på?
Det pleide å være videospill (Atari) og brettspill (Go / Chess).
Men nå som RL fungerer med LLM-er, er det bare ett miljø som betyr noe. Og det er ditt produkt.

Kevin Lu10. juli 2025
Hvorfor du bør slutte å jobbe med RL-forskning og i stedet jobbe med produkt //
Teknologien som låste opp det store skaleringsskiftet innen AI er internett, ikke transformatorer
Jeg tror det er velkjent at data er det viktigste innen AI, og også at forskere velger å ikke jobbe med det uansett. ... Hva vil det si å jobbe med data (på en skalerbar måte)?
Internett ga en rik kilde til rikelig med data, som var mangfoldig, ga en naturlig læreplan, representerte kompetansene folk faktisk bryr seg om, og var en økonomisk levedyktig teknologi å distribuere i stor skala - det ble det perfekte komplementet til neste token-prediksjon og var den opprinnelige suppen for AI å ta av.
Uten transformatorer kunne et hvilket som helst antall tilnærminger ha tatt av, vi kunne sannsynligvis ha CNN-er eller statlige rommodeller på nivå med GPT-4.5. Men det har ikke vært en dramatisk forbedring i basismodeller siden GPT-4. Resonneringsmodeller er gode i smale domener, men ikke et så stort sprang som GPT-4 var i mars 2023 (for over 2 år siden...)
Vi har noe flott med forsterkende læring, men min dype frykt er at vi vil gjenta feilene fra fortiden (2015-2020-æraen RL) og gjøre RL-forskning som ikke betyr noe.
På samme måte som internett var dobbelen av overvåket forhåndstrening, hva vil være dualen av RL som vil føre til et massivt fremskritt som GPT-1 -> GPT-4? Jeg synes det ser ut som forsknings-produkt-co-design.

10,97K
Misha Laskin lagt ut på nytt
Det er enkelt å finjustere små modeller med RL for å overgå fundamentmodeller på vertikale oppgaver.
Vi har åpen kildekode for Osmosis-Apply-1.7B: en liten modell som slår sammen kode (ligner på Cursors øyeblikkelige anvendelse) bedre enn grunnmodeller.
Lenker for å laste ned og prøve ut modellen nedenfor!
111,47K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til