GPT-5 atinge o precizie de 94,6% pe AIME 2025, sugerând un raționament matematic aproape uman. Cu toate acestea, cereți-i să vă interogheze baza de date, iar ratele de succes scad la adolescenți. Benchmark-urile Spider 2.0 dezvăluie un decalaj uriaș în capacitățile AI. Spider 2.0 este un benchmark cuprinzător text-to-SQL care testează capacitatea modelelor AI de a genera interogări SQL precise din întrebări în limbaj natural în baze de date din lumea reală. În timp ce modelele lingvistice mari au cucerit munca de cunoaștere în matematică, codare și raționament, text-to-SQL rămâne încăpățânat de dificil. Cele trei benchmark-uri Spider 2.0 testează interogarea bazelor de date din lumea reală în diferite medii. Spider 2.0-Snow folosește baze de date Snowflake cu 547 de exemple de testare, cu o precizie maximă de 59,05%. Spider 2.0-Lite se întinde pe BigQuery, Snowflake și SQLite cu alte 547 de exemple, ajungând la doar 37,84%. Spider 2.0-DBT testează generarea de cod împotriva DuckDB cu 68 de exemple, ajungând la 39,71%. Acest decalaj de performanță nu este din lipsă de încercare. Din noiembrie 2024, 56 de propuneri de la 12 familii de modele au concurat pe aceste criterii de referință. Claude, OpenAI, DeepSeek și alții și-au împins modelele împotriva acestor teste. Progresul a fost constant, de la aproximativ 2% la aproximativ 60%, în ultimele nouă luni. Puzzle-ul se adâncește atunci când iei în considerare constrângerile SQL. SQL are un vocabular limitat în comparație cu engleza, care are 600.000 de cuvinte, sau limbaje de programare care au sintaxe și biblioteci mult mai largi de cunoscut. În plus, există o mulțime de SQL pe care să te antrenezi. În orice caz, acest lucru ar trebui să fie mai ușor decât sarcinile de raționament deschise în care modelele excelează acum. Cu toate acestea, chiar și generarea perfectă de SQL nu ar rezolva adevărata provocare de afaceri. Fiecare companie definește "veniturile" în mod diferit. Marketingul măsoară costul de achiziție a clienților în funcție de cheltuielile de campanie, vânzările îl calculează folosind costurile directorilor de cont, iar finanțele includ cheltuielile complet încărcate ale angajaților. Aceste diferențe semantice creează o confuzie pe care acuratețea tehnică nu o poate rezolva. Rezultatele Spider 2.0 indică un adevăr fundamental despre munca cu date. Competența tehnică în sintaxa SQL este doar punctul de intrare. Adevărata provocare constă în contextul de afaceri. Înțelegerea semnificației datelor, a modului în care diferitele echipe definesc valorile și când contează cazurile limită. După cum am scris în Semantic Cultivators, puntea dintre datele brute și semnificația afacerii necesită o judecată umană pe care IA actuală nu o poate reproduce.
4,06K