DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Trissy

Ein letzter Bullenlauf

Fun Fact: $REI war immer einer meiner bullishsten Bags und dieses Design wurde im März erstellt, als ich plante, einen ausführlichen Forschungsbericht über die Infrastruktur und Größe von etwa 10-15 Millionen zu schreiben. Leider habe ich das nicht getan, da ich nicht an das Base-Team glaubte, die Eco-Builder zu unterstützen, nachdem ich gesehen hatte, wie sie die Projekte mit dem höchsten Mindshare auf ihrer Chain wie Virtuals völlig ignorierten. Ein paar Wochen später sehe ich Beiträge, die herumgehen, dass @Delphi_Digital hinter den Kulissen involviert war und mit dem Rei-Team zusammenarbeitete und schließlich Forschungsberichte veröffentlichte. Es stellte sich heraus, dass meine Einschätzung ihrer Infrastruktur sehr gut recherchiert war und das Chart nur nach oben ging, seitdem es einen 15-fachen Anstieg gab. Seitdem gab es nur ein Utility-Projekt, das mir noch mehr Überzeugung als Rei gegeben hat: $CODEC. Genau wie Rei hat Codec für die Leute nicht ganz Sinn gemacht, da das, was sie bauen, völlig einzigartig ist im Vergleich zu allem, was wir auf dem aktuellen Markt gesehen haben. Ihr Ansatz zur Infrastruktur konzentriert sich nicht darauf, was der Markt heute verlangt, sondern darauf, was er in 6-12 Monaten verlangen wird. Diese Art von Infrastrukturprojekten sind die, auf die ich gerne setze, nicht nur mit meinem Portfolio, sondern auch mit meiner Überzeugung, denn wenn ich recht habe und die Geduld habe, zu halten, kann man generationenübergreifenden Wohlstand schaffen. Ich glaube, dass wir, wenn Codec mehr Informationen über ihre Produkte veröffentlicht und mit Betas für ihre Plattform beginnt, einen großen Zustrom von Forschungsabteilungen und technischen VCs wie Delphi sehen werden, die extrem bullish auf das werden, was sie aufbauen. Sehr wenige Teams in diesem Bereich bauen von den ersten Prinzipien aus und denken über die tiefergehenden philosophischen Fragen nach, wie sich die Gesellschaft unter dem Gewicht des exponentiellen Fortschritts, der durch KI und Robotik vorangetrieben wird, anpassen, entwickeln und reorganisieren wird. Wenn Forscher wie ich oder Delphi auf sie stoßen, werden wir völlig red pilled und wollen alles in unserer Macht Stehende tun, um zu sehen, dass sie erfolgreich sind, da wir so stark mit ihrer Vision übereinstimmen. Bis heute ist das Marketing, das Design und die Optik von Rei immer noch eines meiner Lieblingsprojekte, ganz zu schweigen von ihrem Produkt. Jedes Team, das sich weiterentwickeln möchte, sollte sie als Referenz verwenden, da sie eindeutig ein S-tier Team und Mindset haben. Ich ließ einen externen Faktor beeinflussen, was eine ziemlich interne Entscheidung basierend auf Infrastruktur und Produkt hätte sein sollen. Ich werde es nicht noch einmal zulassen. Codec coded.

Habe 6 Millionen nicht gefeiert und feiere auch 17 Millionen nicht. Achte darauf, dass ich in all meinen Inhalten nur über die Architektur gesprochen habe? Wer auch immer die Architektur für Operatoren und Robotik gewinnt, wird ähnlich sein wie die Blockchain-Kriege von 2021 und die Suche nach dem skalierbarsten Konsensmechanismus. Codec baut nicht, um in den nächsten 2 Wochen Aufmerksamkeit zu erregen, weshalb du nicht täglich eine Menge auffälliger, minderwertiger Beiträge siehst. Dieses Produkt ist ein so seltener Fall, dass der Plan für das, was sie aufbauen, andere Projekte übertrifft, die bereits mit ihren bestehenden Produkten (Investoren, Team, Partner usw.) am Limit sind. Ich bekomme viele Nachrichten, die in die Richtung gehen: "Aber es macht einfach noch nicht ganz Sinn, wie passen all die Teile zusammen?". Ein Magier verrät niemals seine Geheimnisse (noch). Kommt dein Lieblings-DJ am Anfang oder am Ende der Nacht? Isst du zuerst Dessert oder Vorspeisen? Öffnest du Champagner vor dem Rennen oder nach dem Sieg? Was passiert also, wenn wir anfangen, die spaßigen Sachen zu sehen? $CODEC kodiert.

OpenAI hat heute meine nordsternartige These für KI mit der Veröffentlichung ihres Operator-Agenten bestätigt. Nicht nur war dies meine leitende These für $CODEC, sondern auch für jede andere KI-Investition, die ich getätigt habe, einschließlich derjenigen aus dem frühen Jahr während des KI-Wahns. Es gab viele Diskussionen mit Codec in Bezug auf Robotik. Während dieses Segment bald seine eigene Erzählung haben wird, ist der zugrunde liegende Grund, warum ich von Anfang an so optimistisch gegenüber Codec war, die Art und Weise, wie seine Architektur Operator-Agenten antreibt. Die Leute unterschätzen immer noch, wie viel Marktanteil auf dem Spiel steht, wenn man Software entwickelt, die autonom läuft und menschliche Arbeiter ohne ständige Aufforderungen oder Aufsicht übertrifft. Ich habe viele Vergleiche zu $NUIT gesehen. Zunächst möchte ich sagen, dass ich ein großer Fan von dem bin, was Nuit aufbaut, und wünsche ihnen nur Erfolg. Wenn du "nuit" in meinen Telegramm-Chat eingibst, wirst du sehen, dass ich im April gesagt habe, dass ich, wenn ich eine Münze für mehrere Monate halten müsste, Nuit aufgrund meiner Operator-These gewählt hätte. Nuit war das vielversprechendste Operator-Projekt auf dem Papier, aber nach umfangreicher Recherche stellte ich fest, dass ihre Architektur die Tiefe fehlte, um eine große Investition zu rechtfertigen oder meinen Ruf dahinterzustellen. In Anbetracht dessen war ich mir bereits der architektonischen Lücken in bestehenden Operator-Agenten-Teams bewusst und suchte aktiv nach einem Projekt, das diese ansprach. Kurz nachdem Codec auftauchte (danke an @0xdetweiler, der darauf bestand, dass ich tiefer in sie eintauche), ist dies der Unterschied zwischen den beiden: $CODEC vs $NUIT Die Architektur von Codec ist über drei Schichten aufgebaut: Maschine, System und Intelligenz, die Infrastruktur, Umgebungsinterface und KI-Logik trennen. Jeder Operator-Agent in Codec läuft in seiner eigenen isolierten VM oder Container, was nahezu native Leistung und Fehlertoleranz ermöglicht. Dieses geschichtete Design bedeutet, dass Komponenten unabhängig skalieren oder sich weiterentwickeln können, ohne das System zu brechen. Die Architektur von Nuit verfolgt einen anderen Ansatz, indem sie monolithischer ist. Ihr Stack dreht sich um einen spezialisierten Webbrowser-Agenten, der Parsing, KI-Argumentation und Aktionen kombiniert. Das bedeutet, dass sie Webseiten tief in strukturierte Daten für die KI umwandeln und auf Cloud-Verarbeitung für schwere KI-Aufgaben angewiesen sind. Der Ansatz von Codec, ein leichtgewichtiges Vision-Language-Action (VLA)-Modell in jeden Agenten einzubetten, bedeutet, dass es vollständig lokal laufen kann. Dies erfordert kein ständiges Pingen zur Cloud für Anweisungen, wodurch Latenz verringert und Abhängigkeiten von Verfügbarkeit und Bandbreite vermieden werden. Der Agent von Nuit verarbeitet Aufgaben, indem er zunächst Webseiten in ein semantisches Format umwandelt und dann ein LLM-Gehirn verwendet, um herauszufinden, was zu tun ist, was sich im Laufe der Zeit mit verstärkendem Lernen verbessert. Während dies für die Webautomatisierung effektiv ist, hängt dieser Ablauf von schwerer KI-Verarbeitung in der Cloud und vordefinierten Seitenstrukturen ab. Die lokale Geräteintelligenz von Codec bedeutet, dass Entscheidungen näher an den Daten getroffen werden, was den Overhead reduziert und das System stabiler gegenüber unerwarteten Änderungen macht (keine fragilen Skripte oder DOM-Annahmen). Die Operatoren von Codec folgen einem kontinuierlichen Wahrnehmen-Denken-Handeln-Zyklus. Die Maschinenschicht streamt die Umgebung (z. B. einen Live-App- oder Roboter-Feed) zur Intelligenzschicht über die optimierten Kanäle der Systemsicht, wodurch die KI "Augen" auf den aktuellen Zustand hat. Das VLA-Modell des Agenten interpretiert dann die visuellen und instruktiven Informationen zusammen, um eine Aktion zu entscheiden, die die Systemsicht durch Tastatur-/Mausereignisse oder Robotersteuerung ausführt. Dieser integrierte Zyklus bedeutet, dass er sich an Live-Ereignisse anpasst; selbst wenn sich die Benutzeroberfläche ändert, wird der Fluss nicht unterbrochen. Um all dies in einer einfacheren Analogie zu erklären, denke an die Operatoren von Codec wie an einen selbständigen Mitarbeiter, der sich an Überraschungen im Job anpasst. Der Agent von Nuit ist wie ein Mitarbeiter, der anhalten muss, die Situation einem Vorgesetzten am Telefon beschreiben muss und auf Anweisungen warten muss. Ohne zu sehr in technische Details abzutauchen, sollte dies dir eine grobe Vorstellung davon geben, warum ich Codec als meine Hauptwette auf Operatoren gewählt habe. Ja, Nuit hat Unterstützung von YC, ein starkes Team und ein S-Rang-GitHub. Obwohl die Architektur von Codec mit horizontaler Skalierung im Hinterkopf entwickelt wurde, was bedeutet, dass du Tausende von Agenten parallel ohne gemeinsamen Speicher oder Ausführungskontext zwischen den Agenten bereitstellen kannst. Das Team von Codec sind auch keine durchschnittlichen Entwickler. Ihre VLA-Architektur eröffnet eine Vielzahl von Anwendungsfällen, die mit früheren Agentenmodellen nicht möglich waren, da sie durch Pixel und nicht durch Screenshots sehen.

Was ist $CODEC Robotik, Operatoren, Gaming? Alles oben Genannte und mehr. Die Vision-Language-Action (VLA) von Codec ist ein framework-unabhängiges Modell, das aufgrund seiner einzigartigen Fähigkeit, Fehler im Vergleich zu LLMs zu visualisieren, Dutzende von Anwendungsfällen ermöglicht. In den letzten 12 Monaten haben wir gesehen, dass LLMs hauptsächlich als Schleifenmechanismen fungieren, die von vordefinierten Daten und Antwortmustern angetrieben werden. Da sie auf Sprache und Text basieren, haben LLMs eine begrenzte Fähigkeit, über das Fenster des linguistischen Kontexts hinaus zu evolvieren, auf dem sie trainiert wurden. Sie können sensorische Eingaben wie Gesichtsausdrücke oder emotionale Hinweise in Echtzeit nicht interpretieren, da ihr Denken an Sprache und nicht an Wahrnehmung gebunden ist. Die meisten Agenten kombinieren heute transformerbasierte LLMs mit visuellen Codierern. Sie "sehen" die Benutzeroberfläche durch Screenshots, interpretieren, was auf dem Bildschirm ist, und generieren Aktionssequenzen, Klicks, Tastatureingaben und Scrolls, um Anweisungen zu befolgen und Aufgaben zu erledigen. Deshalb hat KI bisher noch keine großen Jobkategorien ersetzt: LLMs sehen Screenshots, keine Pixel. Sie verstehen nicht die dynamische visuelle Semantik der Umgebung, sondern nur das, was durch statische Frames lesbar ist. Ihr typischer Arbeitsablauf ist repetitiv: einen Screenshot erfassen, über die nächste Aktion nachdenken, sie ausführen, dann einen weiteren Frame erfassen und wiederholen. Dieser Wahrnehmen-Denken-Zyklus setzt sich fort, bis die Aufgabe abgeschlossen ist oder der Agent scheitert. Um wirklich zu verallgemeinern, muss KI ihre Umgebung wahrnehmen, über ihren Zustand nachdenken und angemessen handeln, um Ziele zu erreichen, nicht nur Schnappschüsse interpretieren. Wir haben bereits Makros, RPA-Bots und Automatisierungsskripte, aber sie sind schwach und instabil. Eine kleine Pixelverschiebung oder Layoutänderung bricht den Fluss und erfordert manuelles Patchen. Sie können sich nicht anpassen, wenn sich etwas im Arbeitsablauf ändert. Das ist der Engpass. Vision-Language-Action (VLA) Die VLA-Agenten von Codec arbeiten in einem intuitiven, aber leistungsstarken Zyklus: wahrnehmen, denken, handeln. Anstatt nur Text auszugeben wie die meisten LLMs, sehen diese Agenten ihre Umgebung, entscheiden, was zu tun ist, und führen dann aus. Alles ist in einer einheitlichen Pipeline verpackt, die Sie in drei Kernschichten visualisieren können: Vision Der Agent nimmt zuerst seine Umgebung durch Vision wahr. Für einen Desktop-Operator-Agenten bedeutet dies, einen Screenshot oder visuelle Eingaben des aktuellen Zustands (z. B. ein Anwendungsfenster oder ein Textfeld) zu erfassen. Die Vision-Komponente des VLA-Modells interpretiert diese Eingabe, liest den Text auf dem Bildschirm und erkennt Schnittstellenelemente oder Objekte. Also die Augen des Agenten. Sprache Dann kommt das Denken. Angesichts des visuellen Kontexts (und aller Anweisungen oder Ziele) analysiert das Modell, welche Aktion erforderlich ist. Im Wesentlichen "denkt" die KI über die angemessene Antwort nach, ähnlich wie es ein Mensch tun würde. Die VLA-Architektur vereint intern Vision und Sprache, sodass der Agent beispielsweise verstehen kann, dass ein Popup-Dialog eine Ja/Nein-Frage stellt. Er wird dann basierend auf dem Ziel oder der Aufforderung die richtige Aktion (z. B. "OK" klicken) entscheiden. Er fungiert als das Gehirn des Agenten, das wahrgenommene Eingaben einer Aktion zuordnet. Aktion Schließlich handelt der Agent, indem er einen Steuerbefehl an die Umgebung ausgibt. Anstatt Text zu erzeugen, generiert das VLA-Modell eine Aktion (wie einen Mausklick, eine Tastatureingabe oder einen API-Aufruf), die direkt mit dem System interagiert. Im Beispiel des Dialogs würde der Agent den Klick auf die Schaltfläche "OK" ausführen. Dies schließt den Zyklus: Nach dem Handeln kann der Agent das Ergebnis visuell überprüfen und den Zyklus wahrnehmen-denken-handeln fortsetzen. Aktionen sind der entscheidende Unterschied, der sie von Chatboxen zu echten Operatoren macht. Anwendungsfälle Wie ich bereits erwähnt habe, ist Codec aufgrund der Architektur narrativ unabhängig. So wie LLMs nicht durch die textuellen Ausgaben, die sie produzieren können, eingeschränkt sind, sind VLA-Agenten nicht durch die Aufgaben, die sie erledigen können, eingeschränkt. Robotik Anstatt sich auf alte Skripte oder unvollkommene Automatisierung zu verlassen, nehmen VLA-Agenten visuelle Eingaben (Kamerafeed oder Sensoren) auf, leiten sie durch ein Sprachmodell zur Planung und geben dann tatsächliche Steuerbefehle aus, um mit der Welt zu interagieren oder sich zu bewegen. Im Grunde sieht der Roboter, was vor ihm ist, verarbeitet Anweisungen wie "Bewege die Pepsi-Dose neben die Orange", findet heraus, wo alles ist, wie man sich bewegt, ohne etwas umzuwerfen, und tut dies ohne erforderliche Hardcodierung. Dies ist die gleiche Klasse von Systemen wie Googles RT-2 oder PaLM-E. Große Modelle, die Vision und Sprache kombinieren, um reale Aktionen zu erzeugen. Die VLA-Arbeit von CogAct ist ein gutes Beispiel: Der Roboter scannt einen überfüllten Tisch, erhält eine natürliche Aufforderung und führt einen vollständigen Zyklus aus: Objekt-ID, Pfadplanung, Bewegungsausführung. Operatoren In der Desktop- und Webumgebung funktionieren VLA-Agenten im Grunde wie digitale Arbeiter. Sie "sehen" den Bildschirm durch einen Screenshot oder einen Live-Feed, leiten das durch eine Denkschicht, die auf einem Sprachmodell basiert, um sowohl die Benutzeroberfläche als auch die Aufgabenaufforderung zu verstehen, und führen dann die Aktionen mit echter Maus- und Tastaturkontrolle aus, wie es ein Mensch tun würde. Dieser vollständige Zyklus, wahrnehmen, denken, handeln, läuft kontinuierlich. Der Agent reagiert also nicht nur einmal, sondern navigiert aktiv durch die Benutzeroberfläche und bearbeitet mehrstufige Abläufe, ohne dass Hardcodierte Skripte erforderlich sind. Die Architektur ist eine Mischung aus OCR-ähnlicher Vision, um Text/Schaltflächen/Icons zu lesen, semantischem Denken, um zu entscheiden, was zu tun ist, und einer Steuerebene, die klicken, scrollen, tippen usw. kann. Wo es wirklich interessant wird, ist im Fehlerhandling. Diese Agenten können nach Aktionen reflektieren und neu planen, wenn etwas nicht wie erwartet verläuft. Im Gegensatz zu RPA-Skripten, die brechen, wenn sich die Benutzeroberfläche leicht ändert, wie z. B. eine Schaltfläche, die ihre Position verschiebt oder ein Label umbenannt wird, kann ein VLA-Agent sich an das neue Layout anpassen, indem er visuelle Hinweise und Sprachverständnis nutzt. Das macht es viel robuster für die Automatisierung in der realen Welt, wo sich Benutzeroberflächen ständig ändern. Etwas, mit dem ich persönlich gekämpft habe, als ich meine eigenen Forschungsbots mit Tools wie Playwright codiert habe. Gaming Gaming ist einer der klarsten Anwendungsfälle, in denen VLA-Agenten glänzen können. Denken Sie weniger an sie als Bots und mehr an immersive KI-Spieler. Der gesamte Ablauf ist derselbe: Der Agent sieht den Spielbildschirm (Frames, Menüs, Textaufforderungen), denkt darüber nach, was er tun soll, und spielt dann mit Maus-, Tastatur- oder Controller-Eingaben. Es geht nicht um rohe Gewalt, dies ist KI, die lernt, wie man wie ein Mensch spielt. Wahrnehmung + Denken + Kontrolle, alles miteinander verbunden. Das SIMA-Projekt von DeepMind hat dies ermöglicht, indem es ein Vision-Language-Modell mit einer prädiktiven Schicht kombiniert und in Spiele wie No Man’s Sky und Minecraft integriert hat. Nur durch das Beobachten des Bildschirms und das Befolgen von Anweisungen konnte der Agent abstrakte Aufgaben wie "Baue ein Lagerfeuer" abschließen, indem er die richtigen Schritte verknüpfte, Holz sammelte, Streichhölzer fand und das Inventar nutzte. Und es war nicht auf nur ein Spiel beschränkt. Es übertrug dieses Wissen zwischen verschiedenen Umgebungen. VLA-Gaming-Agenten sind nicht auf ein Regelwerk festgelegt. Der gleiche Agent kann sich an völlig unterschiedliche Mechaniken anpassen, nur durch Vision und Sprachverankerung. Und da es auf der Infrastruktur von LLMs basiert, kann es erklären, was es tut, natürliche Sprachbefehle während des Spiels befolgen oder in Echtzeit mit Spielern zusammenarbeiten. Wir sind nicht weit davon entfernt, KI-Teamkollegen zu haben, die sich an Ihren Spielstil und Ihre Personalisierungen anpassen, alles dank Codec.

Top

Ranking

Favoriten

Onchain-Trends

Im Trend auf X

Aktuelle Top-Finanzierungen

Am bemerkenswertesten