Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Trissy
Ein letzter Bullenlauf
Es wird eine Zeitspanne geben, in der dein Skillset dein Portfolio bei weitem übersteigt.
Es ist der emotional volatilste Punkt in deiner Reise.
Tag für Tag verfeinerst du deine Ausführung, schärfst dein Gespür für den Markt, und doch bleibt dein Nettovermögen in einer willkürlichen Zahl "Hölle" gefangen. Du siehst andere mit dem 100-fachen deiner Größe und erkennst, dass sie kein geheimes Wissen haben, sondern einfach mehr Kapital.
Das ist die Zone, in der es um alles oder nichts geht.
Wenig Kapital zu haben bedeutet, dass du ein kleines Zeitfenster hast, um in elitären Reichtum zu spekulieren, wie es degenspartan sagen würde.
Jeder Trade ist wie das Überqueren von Landminen, ein oder zwei falsche Bewegungen können dich komplett auslöschen.
Dennoch weißt du, dass du das Zeug dazu hast, in die großen Ligen aufzusteigen, dein Nettovermögen beweist es nur noch nicht.
Wenn du wirklich durchbrechen willst, musst du einen Flow-Zustand finden, der so stark ist, dass du dich nicht davon abbringen lässt, denn auf der anderen Seite wartet ein 9-5 Job auf dich.
Mach, was immer nötig ist. In dieser Phase wirst du das Gefühl haben, verrückt zu werden, bis du diesen einen glücklichen Durchbruch erzielst, der all die Opfer wert macht.
3,51K
Der beste Vorteil, den Sie als Trader heutzutage haben können, ist, selbst zu denken.
KI hat uns dazu trainiert, das Denken auszulagern, was zu generationsübergreifendem geistigem Verfall führt. Wenn Sie in der Lage sind, eine These Schritt für Schritt zu zerlegen, ohne sich auf ein Terminal zu verlassen, das vorgegebene Textstrings ausspuckt, werden Sie in den oberen 1 % bleiben, da Sie Ihre kognitive Überlegenheit nicht langsam erodieren lassen.
Im Moment ist die echte Bedrohung für die Gesellschaft nicht die monetäre Inflation, sondern die kognitive Inflation. Die Menschen lagern ihre Denkkraft und Weltanschauung an ChatGPT aus und behandeln es als die Quelle der Wahrheit.
Die Disziplin, eigene Schlussfolgerungen durch Schreiben, Analyse und Intuition zu ziehen, wird die Gewinner von den anderen trennen. Es war noch nie einfacher, passiv zu bleiben und sich Informationen vorsetzen zu lassen.
Ja, die Geschwindigkeit der KI wird sich nur beschleunigen. Ich sage nicht, dass Sie sie nicht nutzen sollten, das sollten Sie, denn sie zu ignorieren wird Sie zurücklassen. Allerdings müssen Sie einen Teil Ihres Tages damit verbringen, tief zu lesen, Ereignisse zu kontextualisieren und sie in eigenen Worten zu übersetzen. Gewöhnen Sie sich an qualitativ hochwertiges Denken.
Andernfalls sind Sie nur ein weiteres Hamster, das im Rad läuft und auf die Welt reagiert, die an Ihnen vorbeifliegt.
6,49K
Fun Fact:
$REI war immer einer meiner bullishsten Bags und dieses Design wurde im März erstellt, als ich plante, einen ausführlichen Forschungsbericht über die Infrastruktur und Größe von etwa 10-15 Millionen zu schreiben.
Leider habe ich das nicht getan, da ich nicht an das Base-Team glaubte, die Eco-Builder zu unterstützen, nachdem ich gesehen hatte, wie sie die Projekte mit dem höchsten Mindshare auf ihrer Chain wie Virtuals völlig ignorierten.
Ein paar Wochen später sehe ich Beiträge, die herumgehen, dass @Delphi_Digital hinter den Kulissen involviert war und mit dem Rei-Team zusammenarbeitete und schließlich Forschungsberichte veröffentlichte.
Es stellte sich heraus, dass meine Einschätzung ihrer Infrastruktur sehr gut recherchiert war und das Chart nur nach oben ging, seitdem es einen 15-fachen Anstieg gab.
Seitdem gab es nur ein Utility-Projekt, das mir noch mehr Überzeugung als Rei gegeben hat: $CODEC.
Genau wie Rei hat Codec für die Leute nicht ganz Sinn gemacht, da das, was sie bauen, völlig einzigartig ist im Vergleich zu allem, was wir auf dem aktuellen Markt gesehen haben.
Ihr Ansatz zur Infrastruktur konzentriert sich nicht darauf, was der Markt heute verlangt, sondern darauf, was er in 6-12 Monaten verlangen wird.
Diese Art von Infrastrukturprojekten sind die, auf die ich gerne setze, nicht nur mit meinem Portfolio, sondern auch mit meiner Überzeugung, denn wenn ich recht habe und die Geduld habe, zu halten, kann man generationenübergreifenden Wohlstand schaffen.
Ich glaube, dass wir, wenn Codec mehr Informationen über ihre Produkte veröffentlicht und mit Betas für ihre Plattform beginnt, einen großen Zustrom von Forschungsabteilungen und technischen VCs wie Delphi sehen werden, die extrem bullish auf das werden, was sie aufbauen.
Sehr wenige Teams in diesem Bereich bauen von den ersten Prinzipien aus und denken über die tiefergehenden philosophischen Fragen nach, wie sich die Gesellschaft unter dem Gewicht des exponentiellen Fortschritts, der durch KI und Robotik vorangetrieben wird, anpassen, entwickeln und reorganisieren wird.
Wenn Forscher wie ich oder Delphi auf sie stoßen, werden wir völlig red pilled und wollen alles in unserer Macht Stehende tun, um zu sehen, dass sie erfolgreich sind, da wir so stark mit ihrer Vision übereinstimmen.
Bis heute ist das Marketing, das Design und die Optik von Rei immer noch eines meiner Lieblingsprojekte, ganz zu schweigen von ihrem Produkt. Jedes Team, das sich weiterentwickeln möchte, sollte sie als Referenz verwenden, da sie eindeutig ein S-tier Team und Mindset haben.
Ich ließ einen externen Faktor beeinflussen, was eine ziemlich interne Entscheidung basierend auf Infrastruktur und Produkt hätte sein sollen. Ich werde es nicht noch einmal zulassen.
Codec coded.

4,61K
Habe 6 Millionen nicht gefeiert und feiere auch 17 Millionen nicht.
Achte darauf, dass ich in all meinen Inhalten nur über die Architektur gesprochen habe?
Wer auch immer die Architektur für Operatoren und Robotik gewinnt, wird ähnlich sein wie die Blockchain-Kriege von 2021 und die Suche nach dem skalierbarsten Konsensmechanismus.
Codec baut nicht, um in den nächsten 2 Wochen Aufmerksamkeit zu erregen, weshalb du nicht täglich eine Menge auffälliger, minderwertiger Beiträge siehst.
Dieses Produkt ist ein so seltener Fall, dass der Plan für das, was sie aufbauen, andere Projekte übertrifft, die bereits mit ihren bestehenden Produkten (Investoren, Team, Partner usw.) am Limit sind.
Ich bekomme viele Nachrichten, die in die Richtung gehen: "Aber es macht einfach noch nicht ganz Sinn, wie passen all die Teile zusammen?".
Ein Magier verrät niemals seine Geheimnisse (noch).
Kommt dein Lieblings-DJ am Anfang oder am Ende der Nacht? Isst du zuerst Dessert oder Vorspeisen? Öffnest du Champagner vor dem Rennen oder nach dem Sieg?
Was passiert also, wenn wir anfangen, die spaßigen Sachen zu sehen?
$CODEC kodiert.


Trissy3. Juli 2025
Die Leute gratulieren mir ständig zu $CODEC, wofür?
Bisher haben wir nicht einmal gesehen:
- Token-Nutzen
- Anreize
- Fahrplan
- Demos
- Neue Website
- Marktplatz
- Zukünftige Partnerschaften
- Anwendungsfälle
+ mehr
Alles, was wir gesehen haben, sind ein paar Partnerschaften und die Veröffentlichung ihres Ressourcenaggregators (Fabric).
Ich habe nicht mehrere Threads, mehrere Telegram-Beiträge geschrieben, fast täglich mit dem Team gesprochen, beim Marketing, Branding und der Positionierung beraten, um eine Marktkapitalisierung von 6 Millionen zu feiern.
Ein ChatGPT-Wrapper eines Anime-Mädchens mit pinken Haaren war genug für eine Marktkapitalisierung von 6 Millionen während der AI-Saison.
Projekte wurden über Nacht auf 9-stellige Beträge hochgeschraubt, weil sie einen Hackathon gewonnen oder von großen KOLs/Forschern ins Rampenlicht gerückt wurden.
Jeder hat vergessen, was passiert, wenn die Lichter angehen und die Leute wieder glauben.
Der Grund, warum ich in der letzten Woche so optimistisch für Onchain geworden bin, ist, dass der Glaube auf einem Allzeittief ist. Der letzte Monat war einer der größten Fortschritte, die wir in dieser Branche gemacht haben, zusammen mit einem positiven makroökonomischen Hintergrund.
Erinnert ihr euch an das Gefühl, als Geld vom Himmel fiel? Es könnte nicht mehr lange dauern, bis wir es wieder erleben.

10,81K
Protokolle und Teams sollten aufhören, KOLs für Inhalte zu bezahlen.
Die einzige Zeit, in der Teams Token vergeben sollten, ist an KOLs oder Community-Mitglieder, die einen hohen Wert für ihr Projekt schaffen und Ergebnisse zurückliefern.
Ihr Produkt oder Ihre Erzählung sollte so interessant sein, dass einflussreiche Personen automatisch kaufen und darüber schreiben wollen.
Das sind die, denen Sie Token zuweisen sollten, nicht für 3 bezahlte Threads für Botschafter, die ihre Follower kaufen.
"Was ist, wenn ich niemanden finde, der an meinem Produkt interessiert ist, um zu twittern?" Dann bauen Sie weiter, Sie haben offensichtlich nicht die richtige Nische gefunden oder nicht genug Netzwerke geknüpft, wenn Sie nicht ein paar Kernunterstützer aufbauen können.
Meine Botschaft an die Builder: Bauen Sie etwas Cooles, das die Leute natürlich kaufen und darüber schreiben wollen, geben Sie Token an die größten Unterstützer, die mit Ihrer Vision übereinstimmen. Denn:
1. Sie werden viel wahrscheinlicher bereit sein, Überstunden zu machen und alles zu tun, um Ihnen zum Erfolg zu verhelfen, da Sie starkes moralisches Verhalten gezeigt haben (eine Seltenheit in diesem Bereich).
2. Diejenigen, die Sie für eine bestimmte Anzahl von Posts bezahlen, werden sofort abspringen, sobald ihr Vertrag endet, und die Token abstoßen.
Ich mache keine bezahlten Promotionen jeglicher Art, aber ich werde offensichtlich keine kostenlosen Token für ein Projekt ablehnen, an dem ich extrem interessiert bin, ohne Bedingungen. Die besten Autoren können nicht gekauft werden und werden abgelehnt, wenn Sie es versuchen.
Spielen Sie das langfristige Spiel und nehmen Sie keine Abkürzungen, es wird sich in Ihren Handlungen in jedem Bereich des Unternehmens widerspiegeln, und clevere Trader können es von weitem riechen.
KOL-Kampagnen sind tot, 99,9 % der Marketingagenturen sind Geldverschwendung und werden -ev für Ihr Geschäft sein.
Der einzige Weg, in diesen Markt einzudringen, besteht darin, Krypto-native Teammitglieder zu haben, die bereit sind, sich die Hände schmutzig zu machen.
3,48K
OpenAI hat heute meine nordsternartige These für KI mit der Veröffentlichung ihres Operator-Agenten bestätigt.
Nicht nur war dies meine leitende These für $CODEC, sondern auch für jede andere KI-Investition, die ich getätigt habe, einschließlich derjenigen aus dem frühen Jahr während des KI-Wahns.
Es gab viele Diskussionen mit Codec in Bezug auf Robotik. Während dieses Segment bald seine eigene Erzählung haben wird, ist der zugrunde liegende Grund, warum ich von Anfang an so optimistisch gegenüber Codec war, die Art und Weise, wie seine Architektur Operator-Agenten antreibt.
Die Leute unterschätzen immer noch, wie viel Marktanteil auf dem Spiel steht, wenn man Software entwickelt, die autonom läuft und menschliche Arbeiter ohne ständige Aufforderungen oder Aufsicht übertrifft.
Ich habe viele Vergleiche zu $NUIT gesehen. Zunächst möchte ich sagen, dass ich ein großer Fan von dem bin, was Nuit aufbaut, und wünsche ihnen nur Erfolg. Wenn du "nuit" in meinen Telegramm-Chat eingibst, wirst du sehen, dass ich im April gesagt habe, dass ich, wenn ich eine Münze für mehrere Monate halten müsste, Nuit aufgrund meiner Operator-These gewählt hätte.
Nuit war das vielversprechendste Operator-Projekt auf dem Papier, aber nach umfangreicher Recherche stellte ich fest, dass ihre Architektur die Tiefe fehlte, um eine große Investition zu rechtfertigen oder meinen Ruf dahinterzustellen.
In Anbetracht dessen war ich mir bereits der architektonischen Lücken in bestehenden Operator-Agenten-Teams bewusst und suchte aktiv nach einem Projekt, das diese ansprach. Kurz nachdem Codec auftauchte (danke an @0xdetweiler, der darauf bestand, dass ich tiefer in sie eintauche), ist dies der Unterschied zwischen den beiden:
$CODEC vs $NUIT
Die Architektur von Codec ist über drei Schichten aufgebaut: Maschine, System und Intelligenz, die Infrastruktur, Umgebungsinterface und KI-Logik trennen. Jeder Operator-Agent in Codec läuft in seiner eigenen isolierten VM oder Container, was nahezu native Leistung und Fehlertoleranz ermöglicht. Dieses geschichtete Design bedeutet, dass Komponenten unabhängig skalieren oder sich weiterentwickeln können, ohne das System zu brechen.
Die Architektur von Nuit verfolgt einen anderen Ansatz, indem sie monolithischer ist. Ihr Stack dreht sich um einen spezialisierten Webbrowser-Agenten, der Parsing, KI-Argumentation und Aktionen kombiniert. Das bedeutet, dass sie Webseiten tief in strukturierte Daten für die KI umwandeln und auf Cloud-Verarbeitung für schwere KI-Aufgaben angewiesen sind.
Der Ansatz von Codec, ein leichtgewichtiges Vision-Language-Action (VLA)-Modell in jeden Agenten einzubetten, bedeutet, dass es vollständig lokal laufen kann. Dies erfordert kein ständiges Pingen zur Cloud für Anweisungen, wodurch Latenz verringert und Abhängigkeiten von Verfügbarkeit und Bandbreite vermieden werden.
Der Agent von Nuit verarbeitet Aufgaben, indem er zunächst Webseiten in ein semantisches Format umwandelt und dann ein LLM-Gehirn verwendet, um herauszufinden, was zu tun ist, was sich im Laufe der Zeit mit verstärkendem Lernen verbessert. Während dies für die Webautomatisierung effektiv ist, hängt dieser Ablauf von schwerer KI-Verarbeitung in der Cloud und vordefinierten Seitenstrukturen ab. Die lokale Geräteintelligenz von Codec bedeutet, dass Entscheidungen näher an den Daten getroffen werden, was den Overhead reduziert und das System stabiler gegenüber unerwarteten Änderungen macht (keine fragilen Skripte oder DOM-Annahmen).
Die Operatoren von Codec folgen einem kontinuierlichen Wahrnehmen-Denken-Handeln-Zyklus. Die Maschinenschicht streamt die Umgebung (z. B. einen Live-App- oder Roboter-Feed) zur Intelligenzschicht über die optimierten Kanäle der Systemsicht, wodurch die KI "Augen" auf den aktuellen Zustand hat. Das VLA-Modell des Agenten interpretiert dann die visuellen und instruktiven Informationen zusammen, um eine Aktion zu entscheiden, die die Systemsicht durch Tastatur-/Mausereignisse oder Robotersteuerung ausführt. Dieser integrierte Zyklus bedeutet, dass er sich an Live-Ereignisse anpasst; selbst wenn sich die Benutzeroberfläche ändert, wird der Fluss nicht unterbrochen.
Um all dies in einer einfacheren Analogie zu erklären, denke an die Operatoren von Codec wie an einen selbständigen Mitarbeiter, der sich an Überraschungen im Job anpasst. Der Agent von Nuit ist wie ein Mitarbeiter, der anhalten muss, die Situation einem Vorgesetzten am Telefon beschreiben muss und auf Anweisungen warten muss.
Ohne zu sehr in technische Details abzutauchen, sollte dies dir eine grobe Vorstellung davon geben, warum ich Codec als meine Hauptwette auf Operatoren gewählt habe.
Ja, Nuit hat Unterstützung von YC, ein starkes Team und ein S-Rang-GitHub. Obwohl die Architektur von Codec mit horizontaler Skalierung im Hinterkopf entwickelt wurde, was bedeutet, dass du Tausende von Agenten parallel ohne gemeinsamen Speicher oder Ausführungskontext zwischen den Agenten bereitstellen kannst. Das Team von Codec sind auch keine durchschnittlichen Entwickler.
Ihre VLA-Architektur eröffnet eine Vielzahl von Anwendungsfällen, die mit früheren Agentenmodellen nicht möglich waren, da sie durch Pixel und nicht durch Screenshots sehen.
16,3K
Die Sache ist, wenn du wirklich in diesem Bereich erfolgreich sein willst, werden alle um dich herum denken, dass mit dir etwas nicht stimmt.
Um wirklich zu den 0,001 % zu gehören, ist das Leben außerhalb der Schützengräben fast nicht existent.
Keine Mädchen, keine Hobbys, keine sozialen Ausflüge, kein Netflix oder irgendetwas, das dich von der Arbeit ablenkt.
Es ist eine Art von Denkweise, die selbst für professionelle Athleten extrem schwer nachvollziehbar ist, denn es gibt keinen Grund, warum du nicht 24/7 online sein kannst.
Wir stecken in unserem eigenen Paradoxon der Freiheit fest.
Jeder möchte die magische Fähigkeit, mit Knopfdrücken Geld zu verdienen, bis es Zeit ist, 95 % der Vergnügungen abzulehnen.
Freunde und Familie werden ständig Andeutungen machen, die darauf hindeuten, dass du eine Form von psychischer Erkrankung hast, und werden die Vision niemals wirklich sehen.
Eifersucht steigt auf, wenn kleine Erfolge durchscheinen; wenn du Menschen genau genug beobachtest, offenbaren sie immer ihre wahren Absichten, auch wenn sie es nicht beabsichtigt haben.
Die kleinsten Hinweise werden sie verraten, meist durch spontane emotionale Reaktionen im Moment, wo du nur ein paar Worte hören musst, die oft schon ausreichen.
Wenn du erfolgreicher wirst, lerne, still zu bleiben. Es gibt keinen Grund, deinen Fortschritt zu erwähnen; so großartig es auch wäre, mit allen zu teilen und die Früchte deiner Arbeit zu genießen, wird es nur Gier von anderen anziehen.
Die meisten scheitern daran, da sie es sich zur Aufgabe machen, der "Krypto-Typ" oder "Investor" zu sein. Selbst wenn du 16 Stunden am Tag online bist, musst du dennoch Interessen und Ambitionen außerhalb dieser Branche haben.
Freunde sollten mit dir abhängen wollen wegen der Qualität deiner Präsenz und der Stimmung, die du dort erzeugst, nicht wegen der Zahlen, die du auf einem Bildschirm gemacht hast.
Ein privates, zurückgezogenes Leben mit einem kleinen Kreis von qualitativ hochwertigen Individuen ist der größte Lifehack für seelischen Frieden.
Wenn deine Präsenz die Menschen nicht ohne Geldgespräche etwas fühlen lässt, hast du bereits verloren.
6,08K
Was ist $CODEC
Robotik, Operatoren, Gaming?
Alles oben Genannte und mehr.
Die Vision-Language-Action (VLA) von Codec ist ein framework-unabhängiges Modell, das aufgrund seiner einzigartigen Fähigkeit, Fehler im Vergleich zu LLMs zu visualisieren, Dutzende von Anwendungsfällen ermöglicht.
In den letzten 12 Monaten haben wir gesehen, dass LLMs hauptsächlich als Schleifenmechanismen fungieren, die von vordefinierten Daten und Antwortmustern angetrieben werden.
Da sie auf Sprache und Text basieren, haben LLMs eine begrenzte Fähigkeit, über das Fenster des linguistischen Kontexts hinaus zu evolvieren, auf dem sie trainiert wurden. Sie können sensorische Eingaben wie Gesichtsausdrücke oder emotionale Hinweise in Echtzeit nicht interpretieren, da ihr Denken an Sprache und nicht an Wahrnehmung gebunden ist.
Die meisten Agenten kombinieren heute transformerbasierte LLMs mit visuellen Codierern. Sie "sehen" die Benutzeroberfläche durch Screenshots, interpretieren, was auf dem Bildschirm ist, und generieren Aktionssequenzen, Klicks, Tastatureingaben und Scrolls, um Anweisungen zu befolgen und Aufgaben zu erledigen.
Deshalb hat KI bisher noch keine großen Jobkategorien ersetzt: LLMs sehen Screenshots, keine Pixel. Sie verstehen nicht die dynamische visuelle Semantik der Umgebung, sondern nur das, was durch statische Frames lesbar ist.
Ihr typischer Arbeitsablauf ist repetitiv: einen Screenshot erfassen, über die nächste Aktion nachdenken, sie ausführen, dann einen weiteren Frame erfassen und wiederholen. Dieser Wahrnehmen-Denken-Zyklus setzt sich fort, bis die Aufgabe abgeschlossen ist oder der Agent scheitert.
Um wirklich zu verallgemeinern, muss KI ihre Umgebung wahrnehmen, über ihren Zustand nachdenken und angemessen handeln, um Ziele zu erreichen, nicht nur Schnappschüsse interpretieren.
Wir haben bereits Makros, RPA-Bots und Automatisierungsskripte, aber sie sind schwach und instabil. Eine kleine Pixelverschiebung oder Layoutänderung bricht den Fluss und erfordert manuelles Patchen. Sie können sich nicht anpassen, wenn sich etwas im Arbeitsablauf ändert. Das ist der Engpass.
Vision-Language-Action (VLA)
Die VLA-Agenten von Codec arbeiten in einem intuitiven, aber leistungsstarken Zyklus: wahrnehmen, denken, handeln. Anstatt nur Text auszugeben wie die meisten LLMs, sehen diese Agenten ihre Umgebung, entscheiden, was zu tun ist, und führen dann aus. Alles ist in einer einheitlichen Pipeline verpackt, die Sie in drei Kernschichten visualisieren können:
Vision
Der Agent nimmt zuerst seine Umgebung durch Vision wahr. Für einen Desktop-Operator-Agenten bedeutet dies, einen Screenshot oder visuelle Eingaben des aktuellen Zustands (z. B. ein Anwendungsfenster oder ein Textfeld) zu erfassen. Die Vision-Komponente des VLA-Modells interpretiert diese Eingabe, liest den Text auf dem Bildschirm und erkennt Schnittstellenelemente oder Objekte. Also die Augen des Agenten.
Sprache
Dann kommt das Denken. Angesichts des visuellen Kontexts (und aller Anweisungen oder Ziele) analysiert das Modell, welche Aktion erforderlich ist. Im Wesentlichen "denkt" die KI über die angemessene Antwort nach, ähnlich wie es ein Mensch tun würde. Die VLA-Architektur vereint intern Vision und Sprache, sodass der Agent beispielsweise verstehen kann, dass ein Popup-Dialog eine Ja/Nein-Frage stellt. Er wird dann basierend auf dem Ziel oder der Aufforderung die richtige Aktion (z. B. "OK" klicken) entscheiden. Er fungiert als das Gehirn des Agenten, das wahrgenommene Eingaben einer Aktion zuordnet.
Aktion
Schließlich handelt der Agent, indem er einen Steuerbefehl an die Umgebung ausgibt. Anstatt Text zu erzeugen, generiert das VLA-Modell eine Aktion (wie einen Mausklick, eine Tastatureingabe oder einen API-Aufruf), die direkt mit dem System interagiert. Im Beispiel des Dialogs würde der Agent den Klick auf die Schaltfläche "OK" ausführen. Dies schließt den Zyklus: Nach dem Handeln kann der Agent das Ergebnis visuell überprüfen und den Zyklus wahrnehmen-denken-handeln fortsetzen. Aktionen sind der entscheidende Unterschied, der sie von Chatboxen zu echten Operatoren macht.
Anwendungsfälle
Wie ich bereits erwähnt habe, ist Codec aufgrund der Architektur narrativ unabhängig. So wie LLMs nicht durch die textuellen Ausgaben, die sie produzieren können, eingeschränkt sind, sind VLA-Agenten nicht durch die Aufgaben, die sie erledigen können, eingeschränkt.
Robotik
Anstatt sich auf alte Skripte oder unvollkommene Automatisierung zu verlassen, nehmen VLA-Agenten visuelle Eingaben (Kamerafeed oder Sensoren) auf, leiten sie durch ein Sprachmodell zur Planung und geben dann tatsächliche Steuerbefehle aus, um mit der Welt zu interagieren oder sich zu bewegen.
Im Grunde sieht der Roboter, was vor ihm ist, verarbeitet Anweisungen wie "Bewege die Pepsi-Dose neben die Orange", findet heraus, wo alles ist, wie man sich bewegt, ohne etwas umzuwerfen, und tut dies ohne erforderliche Hardcodierung.
Dies ist die gleiche Klasse von Systemen wie Googles RT-2 oder PaLM-E. Große Modelle, die Vision und Sprache kombinieren, um reale Aktionen zu erzeugen. Die VLA-Arbeit von CogAct ist ein gutes Beispiel: Der Roboter scannt einen überfüllten Tisch, erhält eine natürliche Aufforderung und führt einen vollständigen Zyklus aus: Objekt-ID, Pfadplanung, Bewegungsausführung.
Operatoren
In der Desktop- und Webumgebung funktionieren VLA-Agenten im Grunde wie digitale Arbeiter. Sie "sehen" den Bildschirm durch einen Screenshot oder einen Live-Feed, leiten das durch eine Denkschicht, die auf einem Sprachmodell basiert, um sowohl die Benutzeroberfläche als auch die Aufgabenaufforderung zu verstehen, und führen dann die Aktionen mit echter Maus- und Tastaturkontrolle aus, wie es ein Mensch tun würde.
Dieser vollständige Zyklus, wahrnehmen, denken, handeln, läuft kontinuierlich. Der Agent reagiert also nicht nur einmal, sondern navigiert aktiv durch die Benutzeroberfläche und bearbeitet mehrstufige Abläufe, ohne dass Hardcodierte Skripte erforderlich sind. Die Architektur ist eine Mischung aus OCR-ähnlicher Vision, um Text/Schaltflächen/Icons zu lesen, semantischem Denken, um zu entscheiden, was zu tun ist, und einer Steuerebene, die klicken, scrollen, tippen usw. kann.
Wo es wirklich interessant wird, ist im Fehlerhandling. Diese Agenten können nach Aktionen reflektieren und neu planen, wenn etwas nicht wie erwartet verläuft. Im Gegensatz zu RPA-Skripten, die brechen, wenn sich die Benutzeroberfläche leicht ändert, wie z. B. eine Schaltfläche, die ihre Position verschiebt oder ein Label umbenannt wird, kann ein VLA-Agent sich an das neue Layout anpassen, indem er visuelle Hinweise und Sprachverständnis nutzt. Das macht es viel robuster für die Automatisierung in der realen Welt, wo sich Benutzeroberflächen ständig ändern.
Etwas, mit dem ich persönlich gekämpft habe, als ich meine eigenen Forschungsbots mit Tools wie Playwright codiert habe.
Gaming
Gaming ist einer der klarsten Anwendungsfälle, in denen VLA-Agenten glänzen können. Denken Sie weniger an sie als Bots und mehr an immersive KI-Spieler. Der gesamte Ablauf ist derselbe: Der Agent sieht den Spielbildschirm (Frames, Menüs, Textaufforderungen), denkt darüber nach, was er tun soll, und spielt dann mit Maus-, Tastatur- oder Controller-Eingaben.
Es geht nicht um rohe Gewalt, dies ist KI, die lernt, wie man wie ein Mensch spielt. Wahrnehmung + Denken + Kontrolle, alles miteinander verbunden. Das SIMA-Projekt von DeepMind hat dies ermöglicht, indem es ein Vision-Language-Modell mit einer prädiktiven Schicht kombiniert und in Spiele wie No Man’s Sky und Minecraft integriert hat. Nur durch das Beobachten des Bildschirms und das Befolgen von Anweisungen konnte der Agent abstrakte Aufgaben wie "Baue ein Lagerfeuer" abschließen, indem er die richtigen Schritte verknüpfte, Holz sammelte, Streichhölzer fand und das Inventar nutzte. Und es war nicht auf nur ein Spiel beschränkt. Es übertrug dieses Wissen zwischen verschiedenen Umgebungen.
VLA-Gaming-Agenten sind nicht auf ein Regelwerk festgelegt. Der gleiche Agent kann sich an völlig unterschiedliche Mechaniken anpassen, nur durch Vision und Sprachverankerung. Und da es auf der Infrastruktur von LLMs basiert, kann es erklären, was es tut, natürliche Sprachbefehle während des Spiels befolgen oder in Echtzeit mit Spielern zusammenarbeiten.
Wir sind nicht weit davon entfernt, KI-Teamkollegen zu haben, die sich an Ihren Spielstil und Ihre Personalisierungen anpassen, alles dank Codec.

9,6K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten