LLM-urile pot părea să raționeze bine, dar un singur token greșit poate deraia întreaga ieșire. Noua noastră lucrare arată că memorarea la nivel de jeton este o cauză cheie a eșecului, în special în timpul schimbării distribuției. Vă prezentăm: STIM 🔍🧠 🧵 #NLProc
14,86K