Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Trissy
Ostatnia hossa
Będzie okres, w którym twoje umiejętności znacznie przewyższają twoje portfolio.
To najbardziej emocjonalnie niestabilny moment w twojej podróży.
Dzień po dniu doskonalisz swoje wykonanie, ostrzysz swoje umiejętności odczytywania rynku, a jednak twoja wartość netto pozostaje uwięziona w jakiejś arbitralnej „piekielnej” liczbie. Obserwujesz innych, którzy mają 100 razy większe portfele i zdajesz sobie sprawę, że nie mają żadnej tajemnej wiedzy, tylko więcej kapitału.
To jest strefa, która decyduje o sukcesie lub porażce.
Niski kapitał oznacza, że masz mały margines możliwości, aby zaryzykować i zdobyć elitarny majątek, jak powiedziałby degenspartan.
Każda transakcja jest jak chodzenie po minach, jeden lub dwa błędne ruchy mogą cię całkowicie zrujnować.
Jednak wiesz, że masz to, co potrzeba, aby dołączyć do wielkiej ligi, twoja wartość netto po prostu jeszcze tego nie udowadnia.
Jeśli naprawdę chcesz przełamać się, musisz znaleźć stan flow tak silny, że odmówisz wytrącenia cię z niego, ponieważ po drugiej stronie czeka na ciebie praca 9-5.
Rób wszystko, co trzeba. Na tym etapie poczujesz, że tracisz rozum, aż dostaniesz to jedno szczęśliwe zdarzenie, które sprawi, że wszystko będzie warte poświęcenia.
3,51K
Najlepszą przewagą, jaką możesz mieć jako trader w dzisiejszych czasach, jest myślenie samodzielne.
Sztuczna inteligencja nauczyła nas zlecać myślenie, co prowadzi do pokoleniowego wypalenia umysłowego. Jeśli potrafisz rozłożyć tezę krok po kroku, nie polegając na terminalu wyrzucającym z góry ustalone ciągi tekstowe, pozostaniesz w górnym 1%, ponieważ nie pozwalasz, aby twoja przewaga poznawcza powoli zanikała.
Obecnie prawdziwym zagrożeniem dla społeczeństwa nie jest inflacja monetarna, lecz inflacja poznawcza. Ludzie zlecają swoją moc umysłową i światopogląd ChatGPT, traktując go jako źródło prawdy.
Dyscyplina formułowania własnych wniosków poprzez pisanie, analizę i intuicję to to, co oddzieli zwycięzców od reszty. Nigdy nie było łatwiej pozostać biernym i pozwolić, aby informacje były podawane ci na tacy.
Tak, prędkość AI tylko przyspieszy. Nie mówię, że nie powinieneś z tego korzystać, powinieneś, ponieważ ignorowanie tego zostawi cię w tyle. Chociaż musisz poświęcić część swojego dnia na głębokie czytanie, kontekstualizowanie wydarzeń i tłumaczenie ich na własne słowa. Wyrobienie sobie nawyku wysokiej jakości myślenia.
W przeciwnym razie jesteś tylko kolejnym chomikiem biegającym na kołowrotku, reagującym na świat przelatujący obok ciebie.
6,5K
Ciekawostka:
$REI zawsze był jednym z moich najbardziej optymistycznych portfeli, a ten projekt został stworzony w marcu, kiedy planowałem napisać szczegółowy raport badawczy na temat jego infrastruktury i wielkości w okolicach 10-15 mln.
Niestety, nie zrobiłem tego z powodu braku wiary w zespół Base, aby wspierał budowniczych ekosystemu, po tym jak obserwowałem, jak całkowicie ignorują najwyżej oceniane projekty na ich łańcuchu, takie jak Virtuals.
Kilka tygodni później widzę posty krążące, że @Delphi_Digital był zaangażowany w kulisy i współpracował z zespołem Rei, a ostatecznie publikując raporty badawcze.
Okazuje się, że moja ocena ich infrastruktury była bardzo dobrze zbadana, a wykres tylko rósł, osiągając 15x od tego czasu.
Od tego czasu był tylko jeden projekt użyteczności, który dał mi jeszcze większą pewność niż Rei: $CODEC.
Podobnie jak Rei, Codec nie do końca ma sens dla ludzi, ponieważ to, co budują, jest całkowicie unikalne w porównaniu do wszystkiego, co widzieliśmy na obecnym rynku.
Ich podejście do infrastruktury nie koncentruje się na tym, czego rynek pyta dzisiaj, ale na tym, czego będzie pytał za 6-12 miesięcy.
Tego typu projekty infrastrukturalne to te, na które lubię stawiać wszystko, nie tylko w portfelu, ale także z moją pewnością, ponieważ jeśli mam rację i mam cierpliwość, aby trzymać, można zbudować majątek pokoleniowy.
Wierzę, że gdy Codec opublikuje więcej informacji o swoich produktach i zacznie dostarczać beta wersje swojej platformy, zobaczymy dużą napływ rąk badawczych i technicznych VC, takich jak Delphi, stających się niezwykle optymistycznymi co do tego, co budują.
Bardzo niewiele zespołów w tej przestrzeni buduje od podstaw, zastanawiając się nad głębszymi pytaniami filozoficznymi o to, jak społeczeństwo dostosuje się, ewoluuje i zorganizuje pod ciężarem postępu wykładniczego napędzanego przez AI i robotykę.
Kiedy badacze tacy jak ja czy Delphi natrafiają na nie, całkowicie się otwieramy i chcemy zrobić wszystko, co w naszej mocy, aby zobaczyć ich sukces, ponieważ tak mocno identyfikujemy się z ich wizją.
Do dziś marketing, projekty i optyka Rei są nadal jednym z moich ulubionych wśród wszystkich projektów, nie mówiąc już o ich produkcie. Każdy zespół, który chce się rozwijać, powinien korzystać z nich jako odniesienia, ponieważ wyraźnie mają zespół i mentalność na poziomie S.
Pozwoliłem, aby czynnik zewnętrzny wpłynął na to, co powinno być dość wewnętrzną decyzją opartą na infrastrukturze i produkcie. Nie pozwolę, aby to się powtórzyło.
Codec zakodowany.

4,62K
Nie świętowaliśmy 6 milionów i nie świętujemy też 17 milionów.
Zauważ, że w całej mojej treści mówiłem tylko o architekturze?
Kto wygra architekturę operatorów i robotyki, będzie podobny do wojen blockchainowych z 2021 roku i znajdowania najbardziej skalowalnego mechanizmu konsensusu.
Codec nie buduje, aby przyciągnąć uwagę na następne 2 tygodnie, dlatego nie widzisz codziennie mnóstwa błyszczących, niskiej jakości postów.
Ten produkt jest tak rzadkim przypadkiem, że plan, który tworzą, przewyższa inne projekty, które już osiągnęły maksimum w swoich optykach z istniejącymi produktami (inwestorzy, zespół, partnerzy itp.).
Otrzymuję wiele wiadomości pytających w stylu „ale to po prostu jeszcze nie ma sensu, jak wszystkie elementy się ze sobą łączą?”.
Magik nigdy nie ujawnia swoich sekretów (jeszcze).
Czy twój ulubiony DJ wychodzi na początku czy na końcu nocy? Czy najpierw jesz deser, czy dania główne? Czy otwierasz szampana przed wyścigiem, czy po wygranej?
Co się więc stanie, gdy zaczniemy widzieć te fajne rzeczy?
$CODEC zakodowane.


Trissy3 lip 2025
Ludzie ciągle gratulują mi $CODEC, za co?
Jak dotąd nie widzieliśmy nawet:
- Użyteczności tokena
- Zachęt
- Mapy drogowej
- Demos
- Nowej strony internetowej
- Rynku
- Przyszłych partnerstw
- Przykładów użycia
+ więcej
Widzieliśmy tylko kilka partnerstw i wydanie ich agregatora zasobów (Fabric).
Nie pisałem wielu wątków, wielu postów na telegramie, nie rozmawiałem z zespołem niemal codziennie, nie doradzałem w kwestiach marketingu, brandingu, pozycjonowania, aby świętować 6 milionów mcap.
Wrapper chatgpt z dziewczyną anime o różowych włosach wystarczył, aby osiągnąć 6 milionów mcap w czasach AI.
Projekty wysyłały się do 9 cyfr z dnia na dzień za wygranie hackathonu lub za zaistnienie w świetle reflektorów od dużych KOL-ów/badaczy.
Wszyscy zapomnieli, co się dzieje, gdy światła się zapalają i ludzie znów wierzą.
Powód, dla którego w ostatnim tygodniu stałem się tak byczy w kwestii onchain, to fakt, że wiara jest na najniższych poziomach w historii. Ostatni miesiąc to jeden z największych postępów, jakie osiągnęliśmy w tej branży, w połączeniu z pozytywnym makro tłem.
Pamiętasz to uczucie, gdy pieniądze spadają z nieba? Może nie minie zbyt długo, zanim znów to doświadczymy.

10,82K
Protokoły i zespoły powinny przestać płacić KOL-om za treści.
Jedynym momentem, w którym zespoły powinny rozdawać tokeny, jest sytuacja, gdy KOL-e lub członkowie społeczności tworzą dużą wartość dla ich projektu i przynoszą wyniki.
Twój produkt lub narracja powinny być na tyle interesujące, że osoby wpływowe powinny automatycznie chcieć je kupić i pisać o nich naturalnie.
To są ci, którym powinieneś przydzielać tokeny, a nie robić 3 płatne wątki dla ambasadorów, którzy sztucznie zwiększają swoje obserwacje.
„Co jeśli nie mogę zainteresować nikogo moim produktem, aby tweetował?” W takim razie kontynuuj budowanie, wyraźnie nie znalazłeś odpowiedniej niszy ani nie nawiązałeś wystarczająco kontaktów, jeśli nie możesz zbudować kilku kluczowych zwolenników.
Moja wiadomość do budowniczych: zbuduj coś na tyle fajnego, że ludzie naturalnie będą chcieli to kupić i o tym pisać, daj tokeny największym zwolennikom, którzy są zgodni z twoją wizją. Ponieważ:
1. Będą znacznie bardziej skłonni pracować ponad normę i robić więcej, aby pomóc ci odnieść sukces, ponieważ wykazałeś silne moralne zachowanie (rzadkość w tej przestrzeni)
2. Ci, których płacisz za określoną liczbę postów, znikną, gdy ich umowa wygaśnie i zrzucą tokeny.
Nie robię płatnych promocji żadnego rodzaju, ale oczywiście nie odrzucę darmowych tokenów za projekt, w który jestem niezwykle optymistyczny, bez żadnych zobowiązań. Najlepsi pisarze nie mogą być kupieni i zostaną odrzuceni, jeśli spróbujesz.
Graj długoterminowo i nie szukaj skrótów, to odbije się w twoich działaniach w każdej dziedzinie biznesu, a mądrzy traderzy wyczują to z daleka.
Kampanie KOL są martwe, 99,9% agencji marketingowych to strata pieniędzy i będą -ev dla twojego biznesu.
Jedynym sposobem na penetrację tego rynku jest posiadanie członków zespołu z doświadczeniem w kryptowalutach, którzy są gotowi wziąć sprawy w swoje ręce.
3,48K
OpenAI właśnie potwierdziło moją tezę o gwieździe północnej dla AI, wydając dzisiaj swojego agenta operatora.
Nie tylko była to moja przewodnia teza dla $CODEC, ale także dla każdej innej inwestycji w AI, którą poczyniłem, w tym tych z początku roku podczas szaleństwa AI.
Było wiele dyskusji z Codec w odniesieniu do robotyki, podczas gdy ten sektor wkrótce będzie miał swoją własną narrację, podstawowym powodem, dla którego od samego początku byłem tak optymistyczny wobec Codec, jest to, jak jego architektura napędza agentów operatorów.
Ludzie wciąż niedoceniają, jak wiele udziału w rynku jest na szali, budując oprogramowanie, które działa autonomicznie, przewyższając ludzkich pracowników bez potrzeby ciągłych wskazówek czy nadzoru.
Widziałem wiele porównań do $NUIT. Po pierwsze, chcę powiedzieć, że jestem wielkim fanem tego, co buduje Nuit i życzę im tylko sukcesów. Jeśli wpiszesz „nuit” w moim telegramie, zobaczysz, że w kwietniu powiedziałem, że gdybym miał trzymać jedną monetę przez kilka miesięcy, byłaby to Nuit z powodu mojej tezy o operatorach.
Nuit był najbardziej obiecującym projektem operatora na papierze, ale po dokładnych badaniach odkryłem, że ich architektura nie miała głębokości potrzebnej do uzasadnienia dużej inwestycji lub postawienia za nią mojej reputacji.
Mając to na uwadze, byłem już świadomy luk architektonicznych w istniejących zespołach agentów operatorów i aktywnie szukałem projektu, który by je adresował. Niedługo po tym pojawił się Codec (dzięki @0xdetweiler, który nalegał, żebym przyjrzał się im bliżej) i to jest różnica między tymi dwoma:
$CODEC vs $NUIT
Architektura Codec jest zbudowana na trzech warstwach: Maszyna, System i Inteligencja, które oddzielają infrastrukturę, interfejs środowiska i logikę AI. Każdy agent operatora w Codec działa w swoim własnym izolowanym VM lub kontenerze, co pozwala na niemal natywną wydajność i izolację błędów. Ten warstwowy projekt oznacza, że komponenty mogą skalować się lub ewoluować niezależnie, nie łamiąc systemu.
Architektura Nuit podąża inną drogą, będąc bardziej monolityczna. Ich stos opiera się na wyspecjalizowanym agencie przeglądarki internetowej, który łączy analizę, rozumowanie AI i działanie. Oznacza to, że głęboko analizują strony internetowe na strukturalne dane, które AI może konsumować, i polegają na przetwarzaniu w chmurze dla ciężkich zadań AI.
Podejście Codec do osadzania lekkiego modelu Vision-Language-Action (VLA) w każdym agencie oznacza, że może działać całkowicie lokalnie. Co nie wymaga ciągłego pingowania do chmury po instrukcje, eliminując opóźnienia i unikając zależności od dostępności i przepustowości.
Agent Nuit przetwarza zadania, najpierw przekształcając strony internetowe w semantyczny format, a następnie używając mózgu LLM, aby ustalić, co zrobić, co poprawia się z czasem dzięki uczeniu przez wzmocnienie. Chociaż skuteczne w automatyzacji sieci, ten proces zależy od ciężkiego przetwarzania AI po stronie chmury i zdefiniowanych struktur stron. Inteligencja lokalnego urządzenia Codec oznacza, że decyzje podejmowane są bliżej danych, co zmniejsza obciążenie i sprawia, że system jest bardziej stabilny na nieoczekiwane zmiany (brak kruchych skryptów lub założeń DOM).
Operatorzy Codec podążają za ciągłym cyklem postrzegania–myślenia–działania. Warstwa maszyny przesyła środowisko (np. na żywo aplikację lub feed robota) do warstwy inteligencji za pośrednictwem zoptymalizowanych kanałów warstwy systemu, dając AI „oczy” na aktualny stan. Model VLA agenta następnie interpretuje wizualizacje i instrukcje razem, aby zdecydować o działaniu, które warstwa systemu wykonuje za pomocą zdarzeń klawiatury/myszy lub kontroli robota. Ta zintegrowana pętla oznacza, że dostosowuje się do wydarzeń na żywo, nawet jeśli UI się zmienia, nie przerwie to przepływu.
Aby to wszystko uprościć, pomyśl o operatorach Codec jak o samowystarczalnym pracowniku, który dostosowuje się do niespodzianek w pracy. Agent Nuit jest jak pracownik, który musi się zatrzymać, opisać sytuację przełożonemu przez telefon i czekać na instrukcje.
Nie chcąc zbytnio zagłębiać się w techniczne szczegóły, to powinno dać ci ogólny pomysł, dlaczego wybrałem Codec jako moją główną stawkę na operatorów.
Tak, Nuit ma wsparcie od YC, zespół z doświadczeniem i S tier github. Chociaż architektura Codec została zbudowana z myślą o poziomej skali, co oznacza, że możesz wdrożyć tysiące agentów równolegle bez dzielenia pamięci lub kontekstu wykonania między agentami. Zespół Codec również nie jest przeciętnymi programistami.
Ich architektura VLA otwiera wiele przypadków użycia, które nie były możliwe z wcześniejszymi modelami agentów z powodu widzenia przez piksele, a nie zrzuty ekranu.
Mógłbym kontynuować, ale to zostawię na przyszłe posty.
16,31K
Chodzi o to, że jeśli naprawdę chcesz odnieść sukces w tej branży, wszyscy wokół ciebie pomyślą, że coś jest z tobą nie tak.
Aby naprawdę być w 0,001%, życie poza okopami prawie nie istnieje.
Brak dziewczyn, brak hobby, brak spotkań towarzyskich, brak Netflixa czy czegokolwiek, co odciąga cię od pracy.
To rodzaj mentalności, która jest niezwykle trudna do zrozumienia nawet dla profesjonalnych sportowców, ponieważ nie ma powodu, dla którego nie mógłbyś być online 24/7.
Jesteśmy uwięzieni w naszym własnym paradoksie wolności.
Wszyscy pragną magicznej zdolności klikania przycisków dla pieniędzy, aż przychodzi czas, aby powiedzieć „nie” 95% przyjemności.
Przyjaciele i rodzina będą ciągle rzucać aluzje sugerujące, że masz jakąś formę choroby psychicznej i nigdy naprawdę nie zobaczą wizji.
Zazdrość rośnie, gdy kawałki sukcesu zaczynają się pojawiać; jeśli uważnie obserwujesz ludzi, zawsze ujawniają swoje prawdziwe intencje, nawet jeśli nie chcieli.
Najmniejsze wskazówki zdradzą ich, zazwyczaj z powodu spontanicznych reakcji emocjonalnych w danym momencie, gdzie wystarczy usłyszeć kilka słów, które przypadkowo wypłyną, najczęściej to wszystko, co potrzeba.
W miarę jak stajesz się coraz bardziej udany, ucz się milczeć. Nie ma potrzeby wspominać o swoim postępie, tak wspaniale byłoby dzielić się tym z wszystkimi i cieszyć się owocami swojej pracy, to tylko przyciągnie chciwość innych.
Większość nie udaje się w tym, ponieważ czynią bycie „krypto gościem” lub „inwestorem” swoją całą osobowością. Nawet jeśli jesteś online 16 godzin dziennie, nadal musisz mieć zainteresowania i ambicje poza tą branżą.
Przyjaciele powinni chcieć spędzać z tobą czas ze względu na jakość twojej obecności i różnicę nastroju, jaką wnosisz, a nie ile pieniędzy zarobiłeś na ekranie.
Życie w prywatności, w odosobnieniu z małym kręgiem wartościowych osób to największy hack życiowy dla spokoju umysłu.
Jeśli twoja obecność nie sprawia, że ludzie czują coś bez mówienia o pieniądzach, już przegrałeś.
6,09K
Czym jest $CODEC
Robotyka, operatorzy, gry?
Wszystko powyższe i więcej.
Wizja-język-działanie (VLA) Codec to model niezależny od frameworków, który umożliwia dziesiątki zastosowań dzięki swojej unikalnej zdolności do wizualizacji błędów w porównaniu do LLM.
W ciągu ostatnich 12 miesięcy zauważyliśmy, że LLM działają głównie jako mechanizmy pętlowe, napędzane z góry określonymi danymi i wzorcami odpowiedzi.
Ponieważ są zbudowane na podstawie mowy i tekstu, LLM mają ograniczoną zdolność do ewolucji poza okno kontekstu językowego, na którym są trenowane. Nie potrafią interpretować bodźców sensorycznych, takich jak mimika twarzy czy emocjonalne sygnały w czasie rzeczywistym, ponieważ ich rozumowanie jest związane z językiem, a nie percepcją.
Większość agentów dzisiaj łączy oparte na transformatorach LLM z wizualnymi enkoderami. „Widzą” interfejs poprzez zrzuty ekranu, interpretują to, co jest na ekranie, i generują sekwencje działań, kliknięć, naciśnięć klawiszy, przewijania, aby wykonać instrukcje i zrealizować zadania.
Dlatego AI jeszcze nie zastąpiło dużych kategorii zawodów: LLM widzą zrzuty ekranu, a nie piksele. Nie rozumieją dynamicznej wizualnej semantyki otoczenia, tylko to, co jest czytelne przez statyczne ramki.
Ich typowy przepływ pracy jest powtarzalny: uchwycenie zrzutu ekranu, rozumowanie na temat następnego działania, jego wykonanie, a następnie uchwycenie kolejnej ramki i powtórzenie. Ta pętla percepcji-myślenia trwa, aż zadanie zostanie zakończone lub agent zawiedzie.
Aby naprawdę uogólnić, AI musi postrzegać swoje otoczenie, rozumować o swoim stanie i działać odpowiednio, aby osiągnąć cele, a nie tylko interpretować migawki.
Mamy już makra, boty RPA i skrypty automatyzacji, ale są one słabe i niestabilne. Niewielka zmiana piksela lub układu przerywa przepływ i wymaga ręcznego łatania. Nie potrafią dostosować się, gdy coś zmienia się w przepływie pracy. To jest wąskie gardło.
Wizja-Język-Działanie (VLA)
Agenci VLA Codec działają na intuicyjnej, ale potężnej pętli: postrzegaj, myśl, działaj. Zamiast po prostu wypuszczać tekst jak większość LLM, ci agenci widzą swoje otoczenie, decydują, co zrobić, a następnie wykonują. Wszystko to jest zapakowane w jeden zintegrowany proces, który można wizualizować w trzech podstawowych warstwach:
Wizja
Agent najpierw postrzega swoje otoczenie poprzez wizję. Dla agenta Operatora na komputerze oznacza to uchwycenie zrzutu ekranu lub wizualnego wejścia aktualnego stanu (np. okno aplikacji lub pole tekstowe). Wizualny komponent modelu VLA interpretuje te dane, odczytując tekst na ekranie i rozpoznając elementy interfejsu lub obiekty. To są oczy agenta.
Język
Następnie przychodzi myślenie. Biorąc pod uwagę kontekst wizualny (i wszelkie instrukcje lub cele), model analizuje, jakie działanie jest wymagane. Zasadniczo AI „myśli” o odpowiedniej reakcji, tak jak zrobiłby to człowiek. Architektura VLA łączy wizję i język wewnętrznie, więc agent może na przykład zrozumieć, że okno dialogowe pyta o odpowiedź tak/nie. Następnie zdecyduje o właściwym działaniu (np. kliknięcie „OK”) w oparciu o cel lub podpowiedź. Działa jako mózg agenta, mapując postrzegane dane wejściowe na działanie.
Działanie
Na koniec agent działa, wydając polecenie kontrolne do otoczenia. Zamiast tekstu, model VLA generuje działanie (takie jak kliknięcie myszą, naciśnięcie klawisza lub wywołanie API), które bezpośrednio oddziałuje z systemem. W przykładzie dialogowym agent wykona kliknięcie na przycisku „OK”. To zamyka pętlę: po działaniu agent może wizualnie sprawdzić wynik i kontynuować cykl postrzegania-myślenia-działania. Działania są kluczowym rozdzielnikiem, który przekształca je z okien czatu w rzeczywistych operatorów.
Przykłady zastosowań
Jak wspomniałem, dzięki architekturze Codec jest agnostyczny narracyjnie. Tak jak LLM nie są ograniczone tym, jakie tekstowe wyjścia mogą produkować, tak VLA nie są ograniczone tym, jakie zadania mogą wykonać.
Robotyka
Zamiast polegać na starych skryptach lub niedoskonałej automatyzacji, agenci VLA przyjmują wizualne dane wejściowe (strumień z kamery lub czujniki), przekazują je przez model językowy do planowania, a następnie generują rzeczywiste polecenia kontrolne do poruszania się lub interakcji ze światem.
W zasadzie robot widzi, co ma przed sobą, przetwarza instrukcje takie jak „przesuń puszkę Pepsi obok pomarańczy”, ustala, gdzie wszystko jest, jak się poruszać, nie przewracając niczego, i robi to bez potrzeby twardego kodowania.
To jest ta sama klasa systemu, co RT-2 Google’a lub PaLM-E. Duże modele, które łączą wizję i język, aby tworzyć działania w rzeczywistym świecie. Praca VLA CogAct to dobry przykład, robot skanuje zagraconą stół, otrzymuje naturalną podpowiedź i wykonuje pełną pętlę: identyfikacja obiektu, planowanie trasy, wykonanie ruchu.
Operatorzy
W środowisku desktopowym i internetowym agenci VLA zasadniczo działają jak cyfrowi pracownicy. „Widzą” ekran poprzez zrzut ekranu lub strumień na żywo, przetwarzają to przez warstwę rozumowania opartą na modelu językowym, aby zrozumieć zarówno interfejs użytkownika, jak i podpowiedź zadania, a następnie wykonują działania z rzeczywistą kontrolą myszki i klawiatury, jak człowiek.
Ta pełna pętla, postrzegaj, myśl, działaj, działa nieprzerwanie. Więc agent nie tylko reaguje raz, aktywnie nawigując po interfejsie, obsługując wieloetapowe przepływy bez potrzeby jakichkolwiek twardo zakodowanych skryptów. Architektura to mieszanka wizji w stylu OCR do odczytu tekstu/przycisków/ikon, rozumowania semantycznego do podjęcia decyzji, co zrobić, oraz warstwy kontrolnej, która może klikać, przewijać, pisać itd.
Gdzie to staje się naprawdę interesujące, to w obsłudze błędów. Ci agenci mogą reflektować po działaniach i ponownie planować, jeśli coś nie idzie zgodnie z oczekiwaniami. W przeciwieństwie do skryptów RPA, które łamią się, jeśli interfejs użytkownika zmienia się nieznacznie, na przykład przycisk zmienia położenie lub etykieta zostaje zmieniona, agent VLA może dostosować się do nowego układu, korzystając z wizualnych wskazówek i zrozumienia języka. Czyni to znacznie bardziej odpornym na automatyzację w rzeczywistym świecie, gdzie interfejsy ciągle się zmieniają.
Coś, z czym osobiście miałem trudności, gdy kodowałem własne boty badawcze za pomocą narzędzi takich jak playwright.
Gry
Gry to jeden z najjaśniejszych przypadków użycia, w których agenci VLA mogą błyszczeć, myśl o nich mniej jak o botach, a bardziej jak o immersyjnych graczach AI. Cały przepływ jest taki sam, agent widzi ekran gry (klatki, menu, podpowiedzi tekstowe), rozumuje, co powinien zrobić, a następnie gra, używając wejść z myszki, klawiatury lub kontrolera.
Nie koncentruje się na brutalnej sile, to AI uczy się grać jak człowiek. Percepcja + myślenie + kontrola, wszystko połączone. Projekt SIMA DeepMind odblokował to, łącząc model wizji-języka z warstwą predykcyjną i wprowadzając go do gier takich jak No Man’s Sky i Minecraft. Obserwując ekran i wykonując instrukcje, agent mógł zrealizować abstrakcyjne zadania, takie jak „zbuduj ognisko”, łącząc odpowiednie kroki, zbierając drewno, znajdując zapałki i korzystając z ekwipunku. I nie był ograniczony tylko do jednej gry. Przenosił tę wiedzę między różnymi środowiskami.
Agenci gier VLA nie są zamknięci w jednym zestawie reguł. Ten sam agent może dostosować się do zupełnie różnych mechanik, tylko na podstawie wizji i językowego ugruntowania. A ponieważ jest zbudowany na infrastrukturze LLM, może wyjaśnić, co robi, podążać za instrukcjami w naturalnym języku w trakcie gry lub współpracować z graczami w czasie rzeczywistym.
Nie jesteśmy daleko od posiadania AI towarzyszy, którzy dostosowują się do twojego stylu gry i personalizacji, wszystko dzięki Codec.

9,6K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi