GPT-5 alcanza una precisión del 94.6% en AIME 2025, lo que sugiere un razonamiento matemático casi humano. Sin embargo, pídale que consulte su base de datos y las tasas de éxito caen a los adolescentes. Los benchmarks de Spider 2.0 revelan una brecha abismal en las capacidades de la IA. Spider 2.0 es un benchmark integral de texto a SQL que evalúa la capacidad de los modelos de IA para generar consultas SQL precisas a partir de preguntas en lenguaje natural en bases de datos del mundo real. Mientras que los grandes modelos de lenguaje han conquistado el trabajo del conocimiento en matemáticas, codificación y razonamiento, el texto a SQL sigue siendo obstinadamente difícil. Los tres benchmarks de Spider 2.0 prueban la consulta de bases de datos del mundo real en diferentes entornos. Spider 2.0-Snow utiliza bases de datos de Snowflake con 547 ejemplos de prueba, alcanzando un pico del 59.05% de precisión. Spider 2.0-Lite abarca BigQuery, Snowflake y SQLite con otros 547 ejemplos, alcanzando solo el 37.84%. Spider 2.0-DBT prueba la generación de código contra DuckDB con 68 ejemplos, alcanzando un máximo del 39.71%. Esta brecha de rendimiento no es por falta de esfuerzo. Desde noviembre de 2024, 56 presentaciones de 12 familias de modelos han competido en estos benchmarks. Claude, OpenAI, DeepSeek y otros han empujado sus modelos contra estas pruebas. El progreso ha sido constante, de aproximadamente el 2% a alrededor del 60%, en los últimos nueve meses. El rompecabezas se profundiza cuando se consideran las limitaciones de SQL. SQL tiene un vocabulario limitado en comparación con el inglés, que tiene 600,000 palabras, o los lenguajes de programación que tienen sintaxis y bibliotecas mucho más amplias. Además, hay mucha SQL disponible para entrenar. Si acaso, esto debería ser más fácil que las tareas de razonamiento abiertas donde los modelos ahora sobresalen. Sin embargo, incluso una generación perfecta de SQL no resolvería el verdadero desafío empresarial. Cada empresa define "ingresos" de manera diferente. El marketing mide el costo de adquisición de clientes por el gasto en campañas, las ventas lo calculan utilizando los costos de los ejecutivos de cuentas, y las finanzas incluyen los gastos de empleados totalmente cargados. Estas diferencias semánticas crean confusión que la precisión técnica no puede resolver. Los resultados de Spider 2.0 apuntan a una verdad fundamental sobre el trabajo de datos. La competencia técnica en la sintaxis de SQL es solo el punto de entrada. El verdadero desafío radica en el contexto empresarial. Comprender lo que significa los datos, cómo diferentes equipos definen métricas y cuándo importan los casos extremos. Como escribí en Cultivadores Semánticos, el puente entre los datos en bruto y el significado empresarial requiere un juicio humano que la IA actual no puede replicar.
8,84K