DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

GPT-5 uppnår en noggrannhet på 94,6 % på AIME 2025, vilket tyder på ett matematiskt resonemang som ligger nära människan. Men be den att fråga din databas, och framgångsfrekvensen sjunker till tonåren. Spider 2.0-benchmarks avslöjar en gapande lucka i AI-kapaciteten. Spider 2.0 är ett omfattande text-till-SQL-benchmark som testar AI-modellers förmåga att generera korrekta SQL-frågor från frågor på naturligt språk i verkliga databaser. Medan stora språkmodeller har erövrat kunskapsarbete inom matematik, kodning och resonemang, är text-till-SQL fortfarande envist svårt. De tre Spider 2.0-prestandatesterna testar verkliga databasfrågor i olika miljöer. Spider 2.0-Snow använder Snowflake-databaser med 547 testexempel, med en topp på 59,05 % noggrannhet. Spider 2.0-Lite sträcker sig över BigQuery, Snowflake och SQLite med ytterligare 547 exempel och når endast 37,84 %. Spider 2.0-DBT testar kodgenerering mot DuckDB med 68 exempel och toppar på 39,71 %. Denna prestationsklyfta beror inte på brist på försök. Sedan november 2024 har 56 bidrag från 12 modellfamiljer tävlat på dessa riktmärken. Claude, OpenAI, DeepSeek och andra har alla drivit sina modeller mot dessa tester. Framstegen har varit stadiga, från ungefär 2 % till cirka 60 %, under de senaste nio månaderna. Pusslet fördjupas när man tänker på SQL:s begränsningar. SQL har ett begränsat ordförråd jämfört med engelska, som har 600 000 ord, eller programmeringsspråk som har mycket bredare syntaxer och bibliotek att känna till. Dessutom finns det gott om SQL där ute att träna på. Om något borde detta vara enklare än de öppna resonemangsuppgifterna där modeller nu utmärker sig. Men inte ens en perfekt SQL-generering skulle lösa den verkliga affärsutmaningen. Varje företag definierar "intäkt" på olika sätt. Marknadsföring mäter kundanskaffningskostnader efter kampanjutgifter, försäljning beräknar det med hjälp av kontochefskostnader och ekonomi inkluderar fullt belastade personalkostnader. Dessa semantiska skillnader skapar förvirring som teknisk noggrannhet inte kan lösa. Resultaten från Spider 2.0 pekar på en grundläggande sanning om dataarbete. Teknisk kompetens i SQL-syntax är bara startpunkten. Den verkliga utmaningen ligger i affärssammanhanget. Förstå vad data betyder, hur olika team definierar mätvärden och när gränsfall är viktiga. Som jag skrev om i Semantic Cultivators kräver bron mellan rådata och affärsmening mänskligt omdöme som dagens AI inte kan replikera.

4,06K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda