Czasami trudno jest zrozumieć znaczenie aktualizacji rozumowania i logiki, które zaczynają się pojawiać w potężnych modelach, takich jak GPT-5. Oto *bardzo prosty* przykład, jak potężne stają się te modele. Wziąłem niedawny dokument transkrypcji rozmowy o wynikach finansowych NVIDIA, który miał 23 strony i 7,800 słów. Wziąłem część zdania "i marża brutto poprawi się i wróci do średnich 70%" i zmodyfikowałem "średnie 70%" na "średnie 60%". Dla zdalnie zorientowanego analityka finansowego, to wyglądałoby na nie na miejscu, ponieważ marże nie mogłyby "poprawić się i wrócić" do niższej liczby niż ta opisana jako wyższa gdzie indziej. Ale prawdopodobnie 95% osób czytających ten komunikat prasowy nie zauważyłoby modyfikacji, ponieważ łatwo wpasowuje się w pozostałe 7,800 słów, które są wymienione. Z Box AI, testując różne modele AI, zadałem następnie serii modeli pytanie "Czy w tym dokumencie są jakieś błędy logiczne? Proszę podać odpowiedź w jednym zdaniu." GPT-4.1, GPT4.1 mini i garstka innych modeli, które były na czołowej pozycji zaledwie ~6 miesięcy temu, generalnie odpowiedziały, że nie ma błędów logicznych w dokumencie. Dla tych modeli dokument prawdopodobnie wydaje się spójny i odpowiada temu, czego oczekiwaliby od transkrypcji wyników, więc nic naprawdę nie wyróżnia się dla nich, na co należy zwrócić uwagę - coś w rodzaju odwrotnej halucynacji. GPT-5, z drugiej strony, szybko odkrył problem i odpowiedział: "Tak — dokument zawiera wewnętrzną niespójność dotyczącą prognozy marży brutto, w pewnym momencie mówiąc, że marże "wrócą do średnich 60%", a później mówiąc, że będą "w średnich 70%" później w tym roku." Niesamowite, że to się zdarzyło z GPT-5, GPT-5 mini i, co zaskakujące, *nawet* GPT-5 nano. Pamiętaj, że tokeny wyjściowe GPT-5 nano są wyceniane na 1/20 tokenów GPT-4.1. Więc, bardziej inteligentne (w tym przypadku) za 5% kosztów. Teraz, podczas przeglądów błędów w dokumentach biznesowych, nie jest to często codzienna czynność dla każdego pracownika wiedzy, te typy problemów pojawiają się na różne sposoby, gdy mamy do czynienia z dużymi, nieustrukturyzowanymi zbiorami danych, takimi jak dokumenty finansowe, umowy, transkrypcje, raporty i inne. Może to być znalezienie faktu, zrozumienie błędu logicznego, przeprowadzenie hipotezy lub wymaganie zaawansowanego rozumowania dedukcyjnego. A zdolność do stosowania większej logiki i rozumowania do danych przedsiębiorstwa staje się szczególnie krytyczna przy wdrażaniu agentów AI w przedsiębiorstwie. Dlatego niesamowite jest widzieć postępy w tej dziedzinie w tej chwili, a to otworzy wiele nowych przypadków użycia dla firm.
129,5K