O GPT-5 alcança 94,6% de precisão no AIME 2025, sugerindo um raciocínio matemático quase humano. No entanto, ao pedir que ele consulte seu banco de dados, as taxas de sucesso despencam para os adolescentes. Os benchmarks Spider 2.0 revelam uma lacuna enorme nas capacidades da IA. O Spider 2.0 é um benchmark abrangente de texto para SQL que testa a capacidade dos modelos de IA de gerar consultas SQL precisas a partir de perguntas em linguagem natural em bancos de dados do mundo real. Enquanto os grandes modelos de linguagem conquistaram o trabalho de conhecimento em matemática, programação e raciocínio, o texto para SQL continua teimosamente difícil. Os três benchmarks Spider 2.0 testam consultas de banco de dados do mundo real em diferentes ambientes. O Spider 2.0-Snow utiliza bancos de dados Snowflake com 547 exemplos de teste, atingindo um pico de 59,05% de precisão. O Spider 2.0-Lite abrange BigQuery, Snowflake e SQLite com mais 547 exemplos, alcançando apenas 37,84%. O Spider 2.0-DBT testa a geração de código contra DuckDB com 68 exemplos, atingindo um máximo de 39,71%. Essa lacuna de desempenho não é por falta de tentativas. Desde novembro de 2024, 56 submissões de 12 famílias de modelos competiram nesses benchmarks. Claude, OpenAI, DeepSeek e outros todos empurraram seus modelos contra esses testes. O progresso tem sido constante, de aproximadamente 2% para cerca de 60%, nos últimos nove meses. O enigma se aprofunda quando você considera as limitações do SQL. O SQL tem um vocabulário limitado em comparação com o inglês, que tem 600.000 palavras, ou linguagens de programação que têm sintaxes e bibliotecas muito mais amplas para conhecer. Além disso, há muito SQL disponível para treinar. Seja como for, isso deveria ser mais fácil do que as tarefas de raciocínio abertas onde os modelos agora se destacam. No entanto, mesmo a geração perfeita de SQL não resolveria o verdadeiro desafio empresarial. Cada empresa define "receita" de maneira diferente. O marketing mede o custo de aquisição de clientes pelo gasto em campanhas, as vendas calculam usando os custos dos executivos de contas, e as finanças incluem despesas totalmente carregadas dos funcionários. Essas diferenças semânticas criam confusão que a precisão técnica não pode resolver. Os resultados do Spider 2.0 apontam para uma verdade fundamental sobre o trabalho com dados. A proficiência técnica na sintaxe SQL é apenas o ponto de entrada. O verdadeiro desafio reside no contexto empresarial. Compreender o que os dados significam, como diferentes equipes definem métricas e quando os casos extremos importam. Como escrevi em Cultivadores Semânticos, a ponte entre dados brutos e significado empresarial requer julgamento humano que a IA atual não pode replicar.
8,85K