Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
2025 est l'année des agents, et la capacité clé des agents est d'appeler des outils.
Lorsque j'utilise Claude Code, je peux dire à l'IA de parcourir une newsletter, de trouver tous les liens vers des startups, de vérifier qu'ils existent dans notre CRM, avec une seule commande. Cela peut impliquer l'appel de deux ou trois outils différents.
Mais voici le problème : utiliser un grand modèle de fondation pour cela est coûteux, souvent limité en taux, et trop puissant pour une tâche de sélection.
Quelle est la meilleure façon de construire un système agentique avec appel d'outils ?
La réponse réside dans les petits modèles d'action. NVIDIA a publié un article convaincant soutenant que "les petits modèles de langage (SLMs) sont suffisamment puissants, intrinsèquement plus adaptés, et nécessairement plus économiques pour de nombreuses invocations dans les systèmes agentiques."
J'ai testé différents modèles locaux pour valider un exercice de réduction des coûts. J'ai commencé avec un modèle de 30 milliards de paramètres Qwen3:30b, qui fonctionne mais peut être assez lent car c'est un modèle si grand, même si seulement 3 milliards de ces 30 milliards de paramètres sont actifs à un moment donné.
L'article de NVIDIA recommande le modèle Salesforce xLAM – une architecture différente appelée un grand modèle d'action spécifiquement conçu pour la sélection d'outils.
J'ai donc réalisé un test de mon propre, chaque modèle appelant un outil pour lister mes tâches Asana.
Les résultats étaient frappants : xLAM a complété les tâches en 2,61 secondes avec un taux de réussite de 100 %, tandis que Qwen a pris 9,82 secondes avec un taux de réussite de 92 % – presque quatre fois plus longtemps.
Cet expérience montre le gain de vitesse, mais il y a un compromis : combien d'intelligence devrait résider dans le modèle par rapport aux outils eux-mêmes. Cela limite
Avec des modèles plus grands comme Qwen, les outils peuvent être plus simples car le modèle a une meilleure tolérance aux erreurs et peut contourner des interfaces mal conçues. Le modèle compense les limitations des outils par un raisonnement par force brute.
Avec des modèles plus petits, le modèle a moins de capacité à se remettre des erreurs, donc les outils doivent être plus robustes et la logique de sélection plus précise. Cela peut sembler une limitation, mais c'est en réalité une caractéristique.
Cette contrainte élimine le taux d'erreur cumulatif des outils enchaînés LLM. Lorsque de grands modèles effectuent des appels d'outils séquentiels, les erreurs s'accumulent de manière exponentielle.
Les petits modèles d'action forcent une meilleure conception du système, gardant le meilleur des LLM et le combinant avec des modèles spécialisés.
Cette architecture est plus efficace, plus rapide et plus prévisible.


5,32K
Meilleurs
Classement
Favoris