DApp Store | Web3 Hub for hendelser og spill

Populære emner

Noen ganger er det vanskelig å forstå betydningen av resonnementet og logikkoppdateringene som begynner å dukke opp i kraftige modeller, som GPT-5. Her er et *veldig enkelt* eksempel på hvor kraftige disse modellene blir. Jeg tok et nylig NVIDIA-transkripsjonsdokument for inntektssamtaler som kom inn på 23 sider og hadde 7,800 ord. Jeg tok en del av setningen "og bruttomarginen vil forbedres og gå tilbake til midten av 70-tallet" og modifiserte "midten av 70-tallet" til "midten av 60-tallet". For en finansanalytiker med ekstern innstilling ville dette se malplassert ut, fordi marginene ikke ville "forbedres og gå tilbake" til et lavere tall enn det som beskrives som et høyere tall andre steder. Men sannsynligvis ville 95 % av folk som leser denne pressemeldingen ikke ha oppdaget modifikasjonen fordi den lett passer rett inn i de andre 7,800 ordene som er nevnt. Med Box AI, som testet en rekke AI-modeller, spurte jeg deretter en rekke modeller "Er det noen logiske feil i dette dokumentet? Vennligst gi et svar på én setning.» GPT-4.1, GPT4.1 mini og en håndfull andre modeller som var toppmoderne for bare ~6 måneder siden, kom vanligvis tilbake og returnerte at det ikke var noen logiske feil i dokumentet. For disse modellene virker dokumentet sannsynligvis sammenhengende og følger hvordan det kan forvente at en inntektsutskrift skal se ut, så ingenting skiller seg egentlig ut for dem om hva de skal være oppmerksomme på - en slags omvendt hallusinasjon. GPT-5, derimot, oppdaget raskt problemet og svarte med: «Ja – dokumentet inneholder en intern inkonsekvens om bruttomarginveiledning, der det på et tidspunkt sies at marginene vil «gå tilbake til midten av 60-tallet» og senere sier at de vil være «på midten av 70-tallet» senere i år.» Utrolig nok skjedde dette med GPT-5, GPT-5 mini og, bemerkelsesverdig nok, *til og med* GPT-5 nano. Husk at utgangstokenene til GPT-5 nano er priset til 1/20 av GPT-4.1s tokens. Så mer intelligent (i dette brukstilfellet) for 5% av kostnaden. Nå, selv om det ikke ofte er en daglig hendelse for alle kunnskapsarbeidere å gjøre feilgjennomganger på forretningsdokumenter, dukker denne typen problemer opp på en rekke måter når de arbeider med store ustrukturerte datasett, som økonomiske dokumenter, kontrakter, transkripsjoner, rapporter og mer. Det kan være å finne et faktum, finne ut en logisk feilslutning, kjøre en hypotetisk eller kreve sofistikert deduktiv resonnement. Og muligheten til å bruke mer logikk og resonnement på bedriftsdata blir spesielt viktig når du distribuerer AI-agenter i bedriften. Så det er utrolig å se fremskrittene på dette området akkurat nå, og dette kommer til å åpne for massevis av flere bruksområder for bedrifter.

129,49K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til