Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
2025 é o ano dos agentes, e a principal capacidade dos agentes é chamar ferramentas.
Ao usar o Claude Code, posso dizer à IA para vasculhar um boletim informativo, encontrar todos os links para startups, verificar se existem no nosso CRM, com um único comando. Isso pode envolver duas ou três ferramentas diferentes sendo chamadas.
Mas aqui está o problema: usar um grande modelo de fundação para isso é caro, muitas vezes limitado por taxa, e excessivo para uma tarefa de seleção.
Qual é a melhor maneira de construir um sistema agente com chamada de ferramentas?
A resposta está em pequenos modelos de ação. A NVIDIA lançou um artigo convincente argumentando que “Modelos de linguagem pequenos (SLMs) são suficientemente poderosos, inerentemente mais adequados e necessariamente mais econômicos para muitas invocações em sistemas agentes.”
Estive testando diferentes modelos locais para validar um exercício de redução de custos. Comecei com um modelo de 30 bilhões de parâmetros Qwen3:30b, que funciona, mas pode ser bastante lento porque é um modelo tão grande, mesmo que apenas 3 bilhões desses 30 bilhões de parâmetros estejam ativos a qualquer momento.
O artigo da NVIDIA recomenda o modelo Salesforce xLAM – uma arquitetura diferente chamada modelo de ação grande especificamente projetada para seleção de ferramentas.
Então, fiz um teste por conta própria, cada modelo chamando uma ferramenta para listar minhas tarefas do Asana.
Os resultados foram impressionantes: xLAM completou as tarefas em 2,61 segundos com 100% de sucesso, enquanto Qwen levou 9,82 segundos com 92% de sucesso – quase quatro vezes mais.
Este experimento mostra o ganho de velocidade, mas há um trade-off: quanta inteligência deve residir no modelo versus nas próprias ferramentas. Isso é limitado.
Com modelos maiores como o Qwen, as ferramentas podem ser mais simples porque o modelo tem melhor tolerância a erros e pode contornar interfaces mal projetadas. O modelo compensará as limitações da ferramenta através de raciocínio de força bruta.
Com modelos menores, o modelo tem menos capacidade de se recuperar de erros, então as ferramentas devem ser mais robustas e a lógica de seleção mais precisa. Isso pode parecer uma limitação, mas na verdade é uma característica.
Essa restrição elimina a taxa de erro acumulada de ferramentas encadeadas de LLM. Quando grandes modelos fazem chamadas sequenciais de ferramentas, os erros se acumulam exponencialmente.
Modelos de ação pequenos forçam um melhor design de sistema, mantendo o melhor dos LLMs e combinando-o com modelos especializados.
Essa arquitetura é mais eficiente, mais rápida e mais previsível.


5,32K
Top
Classificação
Favoritos