Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
2025 é o ano dos agentes, e a principal capacidade dos agentes são as ferramentas de chamada.
Ao usar o Claude Code, posso dizer à IA para vasculhar um boletim informativo, encontrar todos os links para startups, verificar se eles existem em nosso CRM, com um único comando. Isso pode envolver duas ou três ferramentas diferentes sendo chamadas.
Mas aqui está o problema: usar um modelo de base grande para isso é caro, muitas vezes limitado por taxa e dominado para uma tarefa de seleção.
Qual é a melhor maneira de construir um sistema agencial com chamada de ferramenta?
A resposta está em pequenos modelos de ação. A NVIDIA lançou um artigo convincente argumentando que "Modelos de linguagem pequena (SLMs) são suficientemente poderosos, inerentemente mais adequados e necessariamente mais econômicos para muitas invocações em sistemas agenciais".
Tenho testado diferentes modelos locais para validar um exercício de redução de custos. Comecei com um modelo de parâmetro Qwen3:30b, que funciona, mas pode ser bastante lento porque é um modelo muito grande, embora apenas 3 bilhões desses 30 bilhões de parâmetros estejam ativos ao mesmo tempo.
O artigo da NVIDIA recomenda o modelo Salesforce xLAM – uma arquitetura diferente chamada modelo de ação grande projetada especificamente para seleção de ferramentas.
Então, fiz um teste próprio, cada modelo chamando uma ferramenta para listar minhas tarefas da Asana.
Os resultados foram impressionantes: o xLAM completou tarefas em 2,61 segundos com 100% de sucesso, enquanto o Qwen levou 9,82 segundos com 92% de sucesso – quase quatro vezes mais.
Este experimento mostra o ganho de velocidade, mas há uma compensação: quanta inteligência deve viver no modelo versus nas próprias ferramentas. Este limitado
Com modelos maiores como o Qwen, as ferramentas podem ser mais simples porque o modelo tem melhor tolerância a erros e pode funcionar em torno de interfaces mal projetadas. O modelo compensa as limitações da ferramenta por meio do raciocínio de força bruta.
Com modelos menores, o modelo tem menos capacidade de se recuperar de erros, portanto, as ferramentas devem ser mais robustas e a lógica de seleção mais precisa. Isso pode parecer uma limitação, mas na verdade é um recurso.
Essa restrição elimina a taxa de erro composto de ferramentas encadeadas de LLM. Quando modelos grandes fazem chamadas de ferramentas sequenciais, os erros se acumulam exponencialmente.
Pequenos modelos de ação forçam um melhor design do sistema, mantendo o melhor dos LLMs e combinando-o com modelos especializados.
Essa arquitetura é mais eficiente, mais rápida e mais previsível.


5,32K
Melhores
Classificação
Favoritos