Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Użytkownik Paul Graham udostępnił ponownie
Czasami trudno jest zrozumieć znaczenie aktualizacji rozumowania i logiki, które zaczynają się pojawiać w potężnych modelach, takich jak GPT-5. Oto *bardzo prosty* przykład, jak potężne stają się te modele.
Wziąłem niedawny dokument transkrypcji rozmowy o wynikach finansowych NVIDIA, który miał 23 strony i 7,800 słów. Wziąłem część zdania "i marża brutto poprawi się i wróci do średnich 70%" i zmodyfikowałem "średnie 70%" na "średnie 60%".
Dla zdalnie zorientowanego analityka finansowego, to wyglądałoby na nie na miejscu, ponieważ marże nie mogłyby "poprawić się i wrócić" do niższej liczby niż ta opisana jako wyższa gdzie indziej. Ale prawdopodobnie 95% osób czytających ten komunikat prasowy nie zauważyłoby modyfikacji, ponieważ łatwo wpasowuje się w pozostałe 7,800 słów, które są wymienione.
Z Box AI, testując różne modele AI, zadałem następnie serii modeli pytanie "Czy w tym dokumencie są jakieś błędy logiczne? Proszę podać odpowiedź w jednym zdaniu."
GPT-4.1, GPT4.1 mini i garstka innych modeli, które były na czołowej pozycji zaledwie ~6 miesięcy temu, generalnie odpowiedziały, że nie ma błędów logicznych w dokumencie. Dla tych modeli dokument prawdopodobnie wydaje się spójny i odpowiada temu, czego oczekiwaliby od transkrypcji wyników, więc nic naprawdę nie wyróżnia się dla nich, na co należy zwrócić uwagę - coś w rodzaju odwrotnej halucynacji.
GPT-5, z drugiej strony, szybko odkrył problem i odpowiedział:
"Tak — dokument zawiera wewnętrzną niespójność dotyczącą prognozy marży brutto, w pewnym momencie mówiąc, że marże "wrócą do średnich 60%", a później mówiąc, że będą "w średnich 70%" później w tym roku."
Niesamowite, że to się zdarzyło z GPT-5, GPT-5 mini i, co zaskakujące, *nawet* GPT-5 nano. Pamiętaj, że tokeny wyjściowe GPT-5 nano są wyceniane na 1/20 tokenów GPT-4.1. Więc, bardziej inteligentne (w tym przypadku) za 5% kosztów.
Teraz, podczas przeglądów błędów w dokumentach biznesowych, nie jest to często codzienna czynność dla każdego pracownika wiedzy, te typy problemów pojawiają się na różne sposoby, gdy mamy do czynienia z dużymi, nieustrukturyzowanymi zbiorami danych, takimi jak dokumenty finansowe, umowy, transkrypcje, raporty i inne. Może to być znalezienie faktu, zrozumienie błędu logicznego, przeprowadzenie hipotezy lub wymaganie zaawansowanego rozumowania dedukcyjnego.
A zdolność do stosowania większej logiki i rozumowania do danych przedsiębiorstwa staje się szczególnie krytyczna przy wdrażaniu agentów AI w przedsiębiorstwie. Dlatego niesamowite jest widzieć postępy w tej dziedzinie w tej chwili, a to otworzy wiele nowych przypadków użycia dla firm.
105,99K
Ktoś zapytał, jak rozwijać pomysły startupów. Najlepszym sposobem jest zredukowanie pomysłu do jego istoty, a następnie zapytanie, jak szeroko ta istotna idea mogłaby być rozwinięta. Musisz najpierw ją zredukować, w przeciwnym razie pozostaną w niej przypadkowe elementy, które utrudnią jej rozwój.
105,24K
Użytkownik Paul Graham udostępnił ponownie
Organizujemy wydarzenie dotyczące inżynierii kontekstu w SF!
Dowiedz się, jak wiodące zespoły zajmujące się zastosowaniami AI inżynierują swoje okna kontekstowe. Posłuchaj:
Jake Heller, CEO @Casetext
Beyang Liu, CTO @Sourcegraph
Sam Bhagwat, CEO @Mastra_ai
Jeff Huber, CEO @trychroma
RSVP:

65,02K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi