Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O GPT-5 atinge 94,6% de precisão no AIME 2025, sugerindo um raciocínio matemático quase humano.
No entanto, peça para consultar seu banco de dados e as taxas de sucesso despencam para os adolescentes.
Os benchmarks do Spider 2.0 revelam uma lacuna enorme nos recursos de IA. O Spider 2.0 é um benchmark abrangente de conversão de texto em SQL que testa a capacidade dos modelos de IA de gerar consultas SQL precisas a partir de perguntas de linguagem natural em bancos de dados do mundo real.
Embora os grandes modelos de linguagem tenham conquistado o trabalho de conhecimento em matemática, codificação e raciocínio, a conversão de texto em SQL permanece teimosamente difícil.
Os três benchmarks do Spider 2.0 testam consultas de banco de dados do mundo real em diferentes ambientes. O Spider 2.0-Snow usa bancos de dados Snowflake com 547 exemplos de teste, com pico de 59,05% de precisão.
O Spider 2.0-Lite abrange BigQuery, Snowflake e SQLite com outros 547 exemplos, atingindo apenas 37,84%. O Spider 2.0-DBT testa a geração de código em relação ao DuckDB com 68 exemplos, chegando a 39,71%.
Essa lacuna de desempenho não é por falta de tentativa. Desde novembro de 2024, 56 inscrições de 12 famílias de modelos competiram nesses benchmarks.
Claude, OpenAI, DeepSeek e outros empurraram seus modelos contra esses testes. O progresso tem sido constante, de cerca de 2% para cerca de 60%, nos últimos nove meses.
O quebra-cabeça se aprofunda quando você considera as restrições do SQL. O SQL tem um vocabulário limitado em comparação com o inglês, que tem 600.000 palavras, ou linguagens de programação que têm sintaxes e bibliotecas muito mais amplas para conhecer. Além disso, há muito SQL por aí para treinar.
Na verdade, isso deve ser mais fácil do que as tarefas de raciocínio aberto, onde os modelos agora se destacam.
No entanto, mesmo a geração perfeita de SQL não resolveria o verdadeiro desafio dos negócios. Cada empresa define "receita" de maneira diferente.
O marketing mede o custo de aquisição do cliente por gastos de campanha, as vendas calculam usando os custos do executivo de contas e as finanças incluem despesas de funcionários totalmente carregadas. Essas diferenças semânticas criam confusão que a precisão técnica não pode resolver.
Os resultados do Spider 2.0 apontam para uma verdade fundamental sobre o trabalho com dados. A proficiência técnica na sintaxe SQL é apenas o ponto de entrada.
O verdadeiro desafio está no contexto dos negócios. Entender o que os dados significam, como diferentes equipes definem métricas e quando os casos extremos são importantes. Como escrevi em Cultivadores Semânticos, a ponte entre dados brutos e significado de negócios requer julgamento humano que a IA atual não pode replicar.

4,06K
Melhores
Classificação
Favoritos