Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Trissy

Ostatnia hossa

Ciekawostka: $REI zawsze był jednym z moich najbardziej optymistycznych portfeli, a ten projekt został stworzony w marcu, kiedy planowałem napisać szczegółowy raport badawczy na temat jego infrastruktury i wielkości w okolicach 10-15 mln. Niestety, nie zrobiłem tego z powodu braku wiary w zespół Base, aby wspierał budowniczych ekosystemu, po tym jak obserwowałem, jak całkowicie ignorują najwyżej oceniane projekty na ich łańcuchu, takie jak Virtuals. Kilka tygodni później widzę posty krążące, że @Delphi_Digital był zaangażowany w kulisy i współpracował z zespołem Rei, a ostatecznie publikując raporty badawcze. Okazuje się, że moja ocena ich infrastruktury była bardzo dobrze zbadana, a wykres tylko rósł, osiągając 15x od tego czasu. Od tego czasu był tylko jeden projekt użyteczności, który dał mi jeszcze większą pewność niż Rei: $CODEC. Podobnie jak Rei, Codec nie do końca ma sens dla ludzi, ponieważ to, co budują, jest całkowicie unikalne w porównaniu do wszystkiego, co widzieliśmy na obecnym rynku. Ich podejście do infrastruktury nie koncentruje się na tym, czego rynek pyta dzisiaj, ale na tym, czego będzie pytał za 6-12 miesięcy. Tego typu projekty infrastrukturalne to te, na które lubię stawiać wszystko, nie tylko w portfelu, ale także z moją pewnością, ponieważ jeśli mam rację i mam cierpliwość, aby trzymać, można zbudować majątek pokoleniowy. Wierzę, że gdy Codec opublikuje więcej informacji o swoich produktach i zacznie dostarczać beta wersje swojej platformy, zobaczymy dużą napływ rąk badawczych i technicznych VC, takich jak Delphi, stających się niezwykle optymistycznymi co do tego, co budują. Bardzo niewiele zespołów w tej przestrzeni buduje od podstaw, zastanawiając się nad głębszymi pytaniami filozoficznymi o to, jak społeczeństwo dostosuje się, ewoluuje i zorganizuje pod ciężarem postępu wykładniczego napędzanego przez AI i robotykę. Kiedy badacze tacy jak ja czy Delphi natrafiają na nie, całkowicie się otwieramy i chcemy zrobić wszystko, co w naszej mocy, aby zobaczyć ich sukces, ponieważ tak mocno identyfikujemy się z ich wizją. Do dziś marketing, projekty i optyka Rei są nadal jednym z moich ulubionych wśród wszystkich projektów, nie mówiąc już o ich produkcie. Każdy zespół, który chce się rozwijać, powinien korzystać z nich jako odniesienia, ponieważ wyraźnie mają zespół i mentalność na poziomie S. Pozwoliłem, aby czynnik zewnętrzny wpłynął na to, co powinno być dość wewnętrzną decyzją opartą na infrastrukturze i produkcie. Nie pozwolę, aby to się powtórzyło. Codec zakodowany.

OpenAI właśnie potwierdziło moją tezę o gwieździe północnej dla AI, wydając dzisiaj swojego agenta operatora. Nie tylko była to moja przewodnia teza dla $CODEC, ale także dla każdej innej inwestycji w AI, którą poczyniłem, w tym tych z początku roku podczas szaleństwa AI. Było wiele dyskusji z Codec w odniesieniu do robotyki, podczas gdy ten sektor wkrótce będzie miał swoją własną narrację, podstawowym powodem, dla którego od samego początku byłem tak optymistyczny wobec Codec, jest to, jak jego architektura napędza agentów operatorów. Ludzie wciąż niedoceniają, jak wiele udziału w rynku jest na szali, budując oprogramowanie, które działa autonomicznie, przewyższając ludzkich pracowników bez potrzeby ciągłych wskazówek czy nadzoru. Widziałem wiele porównań do $NUIT. Po pierwsze, chcę powiedzieć, że jestem wielkim fanem tego, co buduje Nuit i życzę im tylko sukcesów. Jeśli wpiszesz „nuit” w moim telegramie, zobaczysz, że w kwietniu powiedziałem, że gdybym miał trzymać jedną monetę przez kilka miesięcy, byłaby to Nuit z powodu mojej tezy o operatorach. Nuit był najbardziej obiecującym projektem operatora na papierze, ale po dokładnych badaniach odkryłem, że ich architektura nie miała głębokości potrzebnej do uzasadnienia dużej inwestycji lub postawienia za nią mojej reputacji. Mając to na uwadze, byłem już świadomy luk architektonicznych w istniejących zespołach agentów operatorów i aktywnie szukałem projektu, który by je adresował. Niedługo po tym pojawił się Codec (dzięki @0xdetweiler, który nalegał, żebym przyjrzał się im bliżej) i to jest różnica między tymi dwoma: $CODEC vs $NUIT Architektura Codec jest zbudowana na trzech warstwach: Maszyna, System i Inteligencja, które oddzielają infrastrukturę, interfejs środowiska i logikę AI. Każdy agent operatora w Codec działa w swoim własnym izolowanym VM lub kontenerze, co pozwala na niemal natywną wydajność i izolację błędów. Ten warstwowy projekt oznacza, że komponenty mogą skalować się lub ewoluować niezależnie, nie łamiąc systemu. Architektura Nuit podąża inną drogą, będąc bardziej monolityczna. Ich stos opiera się na wyspecjalizowanym agencie przeglądarki internetowej, który łączy analizę, rozumowanie AI i działanie. Oznacza to, że głęboko analizują strony internetowe na strukturalne dane, które AI może konsumować, i polegają na przetwarzaniu w chmurze dla ciężkich zadań AI. Podejście Codec do osadzania lekkiego modelu Vision-Language-Action (VLA) w każdym agencie oznacza, że może działać całkowicie lokalnie. Co nie wymaga ciągłego pingowania do chmury po instrukcje, eliminując opóźnienia i unikając zależności od dostępności i przepustowości. Agent Nuit przetwarza zadania, najpierw przekształcając strony internetowe w semantyczny format, a następnie używając mózgu LLM, aby ustalić, co zrobić, co poprawia się z czasem dzięki uczeniu przez wzmocnienie. Chociaż skuteczne w automatyzacji sieci, ten proces zależy od ciężkiego przetwarzania AI po stronie chmury i zdefiniowanych struktur stron. Inteligencja lokalnego urządzenia Codec oznacza, że decyzje podejmowane są bliżej danych, co zmniejsza obciążenie i sprawia, że system jest bardziej stabilny na nieoczekiwane zmiany (brak kruchych skryptów lub założeń DOM). Operatorzy Codec podążają za ciągłym cyklem postrzegania–myślenia–działania. Warstwa maszyny przesyła środowisko (np. na żywo aplikację lub feed robota) do warstwy inteligencji za pośrednictwem zoptymalizowanych kanałów warstwy systemu, dając AI „oczy” na aktualny stan. Model VLA agenta następnie interpretuje wizualizacje i instrukcje razem, aby zdecydować o działaniu, które warstwa systemu wykonuje za pomocą zdarzeń klawiatury/myszy lub kontroli robota. Ta zintegrowana pętla oznacza, że dostosowuje się do wydarzeń na żywo, nawet jeśli UI się zmienia, nie przerwie to przepływu. Aby to wszystko uprościć, pomyśl o operatorach Codec jak o samowystarczalnym pracowniku, który dostosowuje się do niespodzianek w pracy. Agent Nuit jest jak pracownik, który musi się zatrzymać, opisać sytuację przełożonemu przez telefon i czekać na instrukcje. Nie chcąc zbytnio zagłębiać się w techniczne szczegóły, to powinno dać ci ogólny pomysł, dlaczego wybrałem Codec jako moją główną stawkę na operatorów. Tak, Nuit ma wsparcie od YC, zespół z doświadczeniem i S tier github. Chociaż architektura Codec została zbudowana z myślą o poziomej skali, co oznacza, że możesz wdrożyć tysiące agentów równolegle bez dzielenia pamięci lub kontekstu wykonania między agentami. Zespół Codec również nie jest przeciętnymi programistami. Ich architektura VLA otwiera wiele przypadków użycia, które nie były możliwe z wcześniejszymi modelami agentów z powodu widzenia przez piksele, a nie zrzuty ekranu. Mógłbym kontynuować, ale to zostawię na przyszłe posty.

Czym jest $CODEC Robotyka, operatorzy, gry? Wszystko powyższe i więcej. Wizja-język-działanie (VLA) Codec to model niezależny od frameworków, który umożliwia dziesiątki zastosowań dzięki swojej unikalnej zdolności do wizualizacji błędów w porównaniu do LLM. W ciągu ostatnich 12 miesięcy zauważyliśmy, że LLM działają głównie jako mechanizmy pętlowe, napędzane z góry określonymi danymi i wzorcami odpowiedzi. Ponieważ są zbudowane na podstawie mowy i tekstu, LLM mają ograniczoną zdolność do ewolucji poza okno kontekstu językowego, na którym są trenowane. Nie potrafią interpretować bodźców sensorycznych, takich jak mimika twarzy czy emocjonalne sygnały w czasie rzeczywistym, ponieważ ich rozumowanie jest związane z językiem, a nie percepcją. Większość agentów dzisiaj łączy oparte na transformatorach LLM z wizualnymi enkoderami. „Widzą” interfejs poprzez zrzuty ekranu, interpretują to, co jest na ekranie, i generują sekwencje działań, kliknięć, naciśnięć klawiszy, przewijania, aby wykonać instrukcje i zrealizować zadania. Dlatego AI jeszcze nie zastąpiło dużych kategorii zawodów: LLM widzą zrzuty ekranu, a nie piksele. Nie rozumieją dynamicznej wizualnej semantyki otoczenia, tylko to, co jest czytelne przez statyczne ramki. Ich typowy przepływ pracy jest powtarzalny: uchwycenie zrzutu ekranu, rozumowanie na temat następnego działania, jego wykonanie, a następnie uchwycenie kolejnej ramki i powtórzenie. Ta pętla percepcji-myślenia trwa, aż zadanie zostanie zakończone lub agent zawiedzie. Aby naprawdę uogólnić, AI musi postrzegać swoje otoczenie, rozumować o swoim stanie i działać odpowiednio, aby osiągnąć cele, a nie tylko interpretować migawki. Mamy już makra, boty RPA i skrypty automatyzacji, ale są one słabe i niestabilne. Niewielka zmiana piksela lub układu przerywa przepływ i wymaga ręcznego łatania. Nie potrafią dostosować się, gdy coś zmienia się w przepływie pracy. To jest wąskie gardło. Wizja-Język-Działanie (VLA) Agenci VLA Codec działają na intuicyjnej, ale potężnej pętli: postrzegaj, myśl, działaj. Zamiast po prostu wypuszczać tekst jak większość LLM, ci agenci widzą swoje otoczenie, decydują, co zrobić, a następnie wykonują. Wszystko to jest zapakowane w jeden zintegrowany proces, który można wizualizować w trzech podstawowych warstwach: Wizja Agent najpierw postrzega swoje otoczenie poprzez wizję. Dla agenta Operatora na komputerze oznacza to uchwycenie zrzutu ekranu lub wizualnego wejścia aktualnego stanu (np. okno aplikacji lub pole tekstowe). Wizualny komponent modelu VLA interpretuje te dane, odczytując tekst na ekranie i rozpoznając elementy interfejsu lub obiekty. To są oczy agenta. Język Następnie przychodzi myślenie. Biorąc pod uwagę kontekst wizualny (i wszelkie instrukcje lub cele), model analizuje, jakie działanie jest wymagane. Zasadniczo AI „myśli” o odpowiedniej reakcji, tak jak zrobiłby to człowiek. Architektura VLA łączy wizję i język wewnętrznie, więc agent może na przykład zrozumieć, że okno dialogowe pyta o odpowiedź tak/nie. Następnie zdecyduje o właściwym działaniu (np. kliknięcie „OK”) w oparciu o cel lub podpowiedź. Działa jako mózg agenta, mapując postrzegane dane wejściowe na działanie. Działanie Na koniec agent działa, wydając polecenie kontrolne do otoczenia. Zamiast tekstu, model VLA generuje działanie (takie jak kliknięcie myszą, naciśnięcie klawisza lub wywołanie API), które bezpośrednio oddziałuje z systemem. W przykładzie dialogowym agent wykona kliknięcie na przycisku „OK”. To zamyka pętlę: po działaniu agent może wizualnie sprawdzić wynik i kontynuować cykl postrzegania-myślenia-działania. Działania są kluczowym rozdzielnikiem, który przekształca je z okien czatu w rzeczywistych operatorów. Przykłady zastosowań Jak wspomniałem, dzięki architekturze Codec jest agnostyczny narracyjnie. Tak jak LLM nie są ograniczone tym, jakie tekstowe wyjścia mogą produkować, tak VLA nie są ograniczone tym, jakie zadania mogą wykonać. Robotyka Zamiast polegać na starych skryptach lub niedoskonałej automatyzacji, agenci VLA przyjmują wizualne dane wejściowe (strumień z kamery lub czujniki), przekazują je przez model językowy do planowania, a następnie generują rzeczywiste polecenia kontrolne do poruszania się lub interakcji ze światem. W zasadzie robot widzi, co ma przed sobą, przetwarza instrukcje takie jak „przesuń puszkę Pepsi obok pomarańczy”, ustala, gdzie wszystko jest, jak się poruszać, nie przewracając niczego, i robi to bez potrzeby twardego kodowania. To jest ta sama klasa systemu, co RT-2 Google’a lub PaLM-E. Duże modele, które łączą wizję i język, aby tworzyć działania w rzeczywistym świecie. Praca VLA CogAct to dobry przykład, robot skanuje zagraconą stół, otrzymuje naturalną podpowiedź i wykonuje pełną pętlę: identyfikacja obiektu, planowanie trasy, wykonanie ruchu. Operatorzy W środowisku desktopowym i internetowym agenci VLA zasadniczo działają jak cyfrowi pracownicy. „Widzą” ekran poprzez zrzut ekranu lub strumień na żywo, przetwarzają to przez warstwę rozumowania opartą na modelu językowym, aby zrozumieć zarówno interfejs użytkownika, jak i podpowiedź zadania, a następnie wykonują działania z rzeczywistą kontrolą myszki i klawiatury, jak człowiek. Ta pełna pętla, postrzegaj, myśl, działaj, działa nieprzerwanie. Więc agent nie tylko reaguje raz, aktywnie nawigując po interfejsie, obsługując wieloetapowe przepływy bez potrzeby jakichkolwiek twardo zakodowanych skryptów. Architektura to mieszanka wizji w stylu OCR do odczytu tekstu/przycisków/ikon, rozumowania semantycznego do podjęcia decyzji, co zrobić, oraz warstwy kontrolnej, która może klikać, przewijać, pisać itd. Gdzie to staje się naprawdę interesujące, to w obsłudze błędów. Ci agenci mogą reflektować po działaniach i ponownie planować, jeśli coś nie idzie zgodnie z oczekiwaniami. W przeciwieństwie do skryptów RPA, które łamią się, jeśli interfejs użytkownika zmienia się nieznacznie, na przykład przycisk zmienia położenie lub etykieta zostaje zmieniona, agent VLA może dostosować się do nowego układu, korzystając z wizualnych wskazówek i zrozumienia języka. Czyni to znacznie bardziej odpornym na automatyzację w rzeczywistym świecie, gdzie interfejsy ciągle się zmieniają. Coś, z czym osobiście miałem trudności, gdy kodowałem własne boty badawcze za pomocą narzędzi takich jak playwright. Gry Gry to jeden z najjaśniejszych przypadków użycia, w których agenci VLA mogą błyszczeć, myśl o nich mniej jak o botach, a bardziej jak o immersyjnych graczach AI. Cały przepływ jest taki sam, agent widzi ekran gry (klatki, menu, podpowiedzi tekstowe), rozumuje, co powinien zrobić, a następnie gra, używając wejść z myszki, klawiatury lub kontrolera. Nie koncentruje się na brutalnej sile, to AI uczy się grać jak człowiek. Percepcja + myślenie + kontrola, wszystko połączone. Projekt SIMA DeepMind odblokował to, łącząc model wizji-języka z warstwą predykcyjną i wprowadzając go do gier takich jak No Man’s Sky i Minecraft. Obserwując ekran i wykonując instrukcje, agent mógł zrealizować abstrakcyjne zadania, takie jak „zbuduj ognisko”, łącząc odpowiednie kroki, zbierając drewno, znajdując zapałki i korzystając z ekwipunku. I nie był ograniczony tylko do jednej gry. Przenosił tę wiedzę między różnymi środowiskami. Agenci gier VLA nie są zamknięci w jednym zestawie reguł. Ten sam agent może dostosować się do zupełnie różnych mechanik, tylko na podstawie wizji i językowego ugruntowania. A ponieważ jest zbudowany na infrastrukturze LLM, może wyjaśnić, co robi, podążać za instrukcjami w naturalnym języku w trakcie gry lub współpracować z graczami w czasie rzeczywistym. Nie jesteśmy daleko od posiadania AI towarzyszy, którzy dostosowują się do twojego stylu gry i personalizacji, wszystko dzięki Codec.

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi