GPT-5 uruchomiono wczoraj. 94,6% w AIME 2025. 74,9% w SWE-bench. W miarę zbliżania się do górnych granic tych benchmarków, one umierają. To, co czyni GPT-5 i kolejną generację modeli rewolucyjnymi, nie jest ich wiedza. To umiejętność działania. W przypadku GPT-5 dzieje się to na dwóch poziomach. Po pierwsze, decyzja, który model użyć. Ale po drugie, i co ważniejsze, poprzez wywoływanie narzędzi. Żyjemy w erze, w której LLM-y opanowały pozyskiwanie i ponowne składanie wiedzy. Wyszukiwanie konsumenckie i kodowanie, początkowe aplikacje zabójcze, są zasadniczo wyzwaniami związanymi z pozyskiwaniem wiedzy. Oba organizują istniejące informacje w nowe sposoby. Wspięliśmy się na te wzgórza i w rezultacie konkurencja jest bardziej intensywna niż kiedykolwiek. Modele Anthropic, OpenAI i Google'a zbliżają się do podobnych możliwości. Chińskie modele i alternatywy open source nadal zbliżają się do stanu sztuki. Każdy może pozyskiwać informacje. Każdy może generować tekst. Nowa oś konkurencji? Wywoływanie narzędzi. Wywoływanie narzędzi przekształca LLM-y z doradców w aktorów. Kompensuje dwie krytyczne słabości modeli, których czyste modele językowe nie mogą przezwyciężyć. Po pierwsze, orkiestracja przepływu pracy. Modele doskonale radzą sobie z odpowiedziami jednorazowymi, ale mają trudności z procesami wieloetapowymi i stanowymi. Narzędzia umożliwiają im zarządzanie długimi przepływami pracy, śledzenie postępów, obsługę błędów, utrzymywanie kontekstu w dziesiątkach operacji. Po drugie, integracja systemów. LLM-y żyją w świecie tylko tekstowym. Narzędzia pozwalają im przewidywalnie współdziałać z systemami zewnętrznymi, takimi jak bazy danych, API i oprogramowanie dla przedsiębiorstw, przekształcając naturalny język w działania do wykonania. W ciągu ostatniego miesiąca zbudowałem 58 różnych narzędzi AI. Procesory e-mailowe. Integratory CRM. Aktualizatory Notion. Asystenci badawczy. Każde narzędzie rozszerza możliwości modelu w nowej dziedzinie. Najważniejszą zdolnością AI jest szybkie i poprawne wybieranie odpowiedniego narzędzia. Każdy błędnie skierowany krok zabija cały przepływ pracy. Kiedy mówię „przeczytaj ten e-mail od Y Combinator i znajdź wszystkie startupy, które nie są w CRM”, nowoczesne LLM-y wykonują skomplikowaną sekwencję. Jedno polecenie w języku angielskim zastępuje cały przepływ pracy. A to tylko proste zadanie. Co lepsze, model, odpowiednio skonfigurowany z odpowiednimi narzędziami, może zweryfikować swoją własną pracę, że zadania zostały wykonane na czas. Ta pętla samoweryfikacji tworzy niezawodność w przepływach pracy, którą trudno osiągnąć w inny sposób. Pomnóż to przez setki pracowników. Tysiące przepływów pracy. Zyski wydajności kumulują się wykładniczo. Zwycięzcy w przyszłym świecie AI będą tymi, którzy będą najbardziej zaawansowani w orkiestracji narzędzi i kierowaniu odpowiednich zapytań. Za każdym razem. Gdy te przepływy pracy staną się przewidywalne, wtedy wszyscy staniemy się menedżerami agentów.
3,19K