2025 este anul agenților, iar capacitatea cheie a agenților este apelarea instrumentelor. Când folosesc Claude Code, pot spune AI să caute un newsletter, să găsească toate link-urile către startup-uri, să verifice dacă există în CRM-ul nostru, cu o singură comandă. Acest lucru ar putea implica apelarea a două sau trei instrumente diferite. Dar iată problema: utilizarea unui model de fundație mare pentru acest lucru este costisitoare, adesea limitată și supraputernică pentru o sarcină de selecție. Care este cel mai bun mod de a construi un sistem agentic cu apelarea instrumentelor? Răspunsul se află în modelele de acțiune mică. NVIDIA a lansat o lucrare convingătoare în care susține că "modelele de limbaj mic (SLM) sunt suficient de puternice, în mod inerent mai potrivite și neapărat mai economice pentru multe invocații în sistemele agentice". Am testat diferite modele locale pentru a valida un exercițiu de reducere a costurilor. Am început cu un model de parametri Qwen3:30b, care funcționează, dar poate fi destul de lent pentru că este un model atât de mare, chiar dacă doar 3 miliarde din cei 30 de miliarde de parametri sunt activi la un moment dat. Lucrarea NVIDIA recomandă modelul Salesforce xLAM – o arhitectură diferită numită model de acțiune mare special conceput pentru selectarea instrumentelor. Așa că am efectuat un test propriu, fiecare model apelând la un instrument pentru a-mi lista sarcinile Asana. Rezultatele au fost uimitoare: xLAM a finalizat sarcinile în 2,61 secunde cu 100% succes, în timp ce Qwen a avut nevoie de 9,82 secunde cu 92% succes – aproape de patru ori mai mult. Acest experiment arată câștigul de viteză, dar există un compromis: câtă inteligență ar trebui să trăiască în model față de instrumentele în sine. Acest limitat Cu modele mai mari, cum ar fi Qwen, instrumentele pot fi mai simple, deoarece modelul are o toleranță mai bună la erori și poate funcționa în jurul interfețelor prost proiectate. Modelul compensează limitările uneltei prin raționamentul forței brute. Cu modele mai mici, modelul are o capacitate mai mică de a se recupera din greșeli, astfel încât instrumentele trebuie să fie mai robuste și logica de selecție mai precisă. Aceasta ar putea părea o limitare, dar este de fapt o caracteristică. Această constrângere elimină rata de eroare compusă a instrumentelor înlănțuite LLM. Când modelele mari fac apeluri secvențiale ale instrumentelor, erorile se acumulează exponențial. Modelele cu acțiune mică forțează un design mai bun al sistemului, păstrând cele mai bune LLM-uri și combinându-le cu modele specializate. Această arhitectură este mai eficientă, mai rapidă și mai previzibilă.
5,32K