Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Diretor de Robótica da NVIDIA & Cientista Distinto. Colíder do laboratório GEAR. Resolução de IAG Física, um motor de cada vez. Stanford Ph.D. 1º estagiário da OpenAI.
Vibe Minecraft: um modelo de mundo em tempo real, auto-consistente e multi-jogador que permite construir qualquer coisa e conjurar quaisquer objetos. A função das ferramentas e até mesmo a mecânica do jogo podem ser programadas por linguagem natural, como "picareta cronológica: reverter qualquer bloco para um estado anterior no tempo" e "cachoeiras se transformam em ponte arco-íris quando unicórnios passam". Os jogadores definem e manipulam coletivamente um mundo compartilhado.
A simulação neural recebe como entrada um prompt de sistema *multimodal*: regras do jogo, pngs de ativos, um mapa global e ovos de páscoa. Ela salva periodicamente os estados do jogo como uma sequência de vetores latentes que podem ser carregados de volta ao contexto, opcionalmente com "textos de orientação" intercalados para permitir uma edição fácil. Cada jogador tem seu próprio json de estatísticas explícitas (saúde, inventário, coordenadas 3D), bem como "vetores de jogador" implícitos que capturam a história de interação de ordem superior.
Os administradores do jogo podem criar um multiverso Minecraft porque os latentes são compatíveis entre diferentes servidores. Cada mundo pode cruzar-se perfeitamente com outro para gerar novos mundos em segundos. As pessoas podem misturar e combinar com os estados passados de seus amigos ou os seus próprios. "Vetores raros" podem surgir à medida que alguns jogadores inevitavelmente vagam pelo espaço latente bizarro e inexplorado do modelo de mundo. Essas matrizes flutuantes podem ser negociadas como NFTs. Quanto mais coisas malucas você tentar, mais provável será que você minerará vetores raros.
Quem lançar o Vibe Minecraft primeiro ficará na história como alguém que alterou o curso dos jogos para sempre.

5,97K
Adoraria ver a Lei de Escala do FSD, pois é a única roda de dados física em escala planetária. Qual é o "limite de capacidade emergente" para o tamanho do modelo/dados?

Elon Musk6/08, 16:02
A Tesla está a treinar um novo modelo FSD com ~10X parâmetros e uma grande melhoria na perda de compressão de vídeo.
Provavelmente pronto para lançamento público no final do próximo mês, se os testes correrem bem.
71,88K
Este é o motor de jogo 2.0. Algum dia, toda a complexidade do UE5 será absorvida por um blob orientado a dados de pesos de atenção. Esses pesos recebem como entrada os comandos do controlador de jogo e animam diretamente um pedaço de pixels no espaço-tempo.
Agrim e eu éramos amigos próximos e coautores no Stanford Vision Lab. É tão bom vê-lo na vanguarda de uma pesquisa tão interessante! Parabéns!

Agrim Gupta5/08, 22:14
Apresentando o Genie 3, o nosso modelo de mundo de última geração que gera mundos interativos a partir de texto, permitindo interação em tempo real a 24 fps com consistência de minutos a 720p. 🧵👇
9,96K
Estou a observar um mini paradoxo de Moravec na robótica: as acrobacias que são difíceis para os humanos são muito mais fáceis para os robôs do que tarefas "não sexy" como cozinhar, limpar e montar. Isso leva a uma dissonância cognitiva para as pessoas fora do campo, "então, os robôs podem fazer parkour e breakdance, mas por que não conseguem cuidar do meu cão?" Acredite, meus pais me perguntaram isso mais do que você imagina ...
O "paradoxo de Moravec dos robôs" também cria a ilusão de que as capacidades físicas da IA estão muito mais avançadas do que realmente estão. Não estou a destacar a Unitree, pois isso se aplica amplamente a todas as recentes demonstrações acrobáticas na indústria. Aqui está um teste simples: se você colocar uma parede na frente do robô que faz flips laterais, ele vai colidir com ela em plena força e fazer um espetáculo. Porque ele está apenas a sobreajustar aquele único movimento de referência, sem qualquer consciência do ambiente.
Aqui está o motivo pelo qual o paradoxo existe: é muito mais fácil treinar um "gimnasta cego" do que um robô que vê e manipula. O primeiro pode ser resolvido inteiramente em simulação e transferido zero-shot para o mundo real, enquanto o último exige renderização extremamente realista, física de contato e dinâmicas de objetos do mundo real desordenadas - nada disso pode ser simulado bem.
Imagine que você pode treinar LLMs não a partir da internet, mas a partir de um jogo de console de texto puramente elaborado à mão. Os robóticos tiveram sorte. Acontece que vivemos num mundo onde motores de física acelerados são tão bons que conseguimos realizar acrobacias impressionantes usando literalmente zero dados reais. Mas ainda não descobrimos o mesmo código de trapaça para a destreza geral.
Até lá, ainda seremos questionados pelos nossos pais confusos.
351,83K
Meu bar para AGI é muito mais simples: uma IA cozinhando um bom jantar na casa de qualquer pessoa para qualquer cozinha. O Teste de Turing Físico é muito provavelmente mais difícil do que o Prémio Nobel. O paradoxo de Moravec continuará a assombrar-nos, parecendo maior e mais sombrio, para a próxima década.

Thomas Wolf19/07/2025
A minha referência para AGI é uma IA a ganhar um Prémio Nobel por uma nova teoria que ela originou.
99,25K
Eu estive um pouco quieto no X recentemente. O ano passado foi uma experiência transformadora. Grok-4 e Kimi K2 são incríveis, mas o mundo da robótica é um maravilhoso oeste selvagem. Parece PNL em 2018, quando o GPT-1 foi publicado, junto com o BERT e mil outras flores que floresceram. Ninguém sabia qual deles acabaria se tornando o ChatGPT. Os debates foram acalorados. A entropia era altíssima. As ideias eram insanamente divertidas.
Acredito que o GPT-1 da robótica já está em algum lugar no Arxiv, mas não sabemos exatamente qual. Podem ser modelos de mundo, RL, aprender com vídeo humano, sim2real, real2sim, etc. etc, ou qualquer combinação deles. Os debates são acalorados. A entropia é altíssima. As ideias são insanamente divertidas, em vez de espremer os últimos % em AIME & GPQA.
A natureza da robótica também complica muito o espaço de design. Ao contrário do mundo limpo de bits para LLMs (strings de texto), nós, roboticistas, temos que lidar com o mundo confuso dos átomos. Afinal, há um pedaço de metal definido por software no loop. LLM normies pode achar difícil de acreditar, mas até agora os roboticistas ainda não conseguem concordar com uma referência! Robôs diferentes têm envelopes de capacidade diferentes - alguns são melhores em acrobacias enquanto outros em manipulação de objetos. Alguns destinam-se a uso industrial, enquanto outros são para tarefas domésticas. A incorporação cruzada não é apenas uma novidade de pesquisa, mas uma característica essencial para um cérebro robô universal.
Conversei com dezenas de líderes C-suite de várias empresas de robôs, antigas e novas. Alguns vendem o corpo inteiro. Alguns vendem partes do corpo, como mãos habilidosas. Muitos outros vendem as pás para fabricar novos corpos, criar simulações ou coletar enormes quantidades de dados. O espaço das ideias de negócio é tão selvagem como a própria investigação. É uma nova corrida do ouro, como não víamos desde a onda ChatGPT de 2022.
O melhor momento para entrar é quando o não consenso atinge o pico. Ainda estamos no início de uma curva de perdas - há fortes sinais de vida, mas muito, muito longe da convergência. Cada passo de gradiente nos leva ao desconhecido. Mas uma coisa eu sei com certeza - não há AGI sem tocar, sentir e ser incorporado no mundo bagunçado.
Em uma nota mais pessoal - administrar um laboratório de pesquisa vem com um novo nível de responsabilidade. Dar atualizações diretamente ao CEO de uma empresa de US$ 4T é, para dizer o mínimo, emocionante e que consome todos os meus pesos de atenção. Foi-se o tempo em que eu podia ficar por dentro e mergulhar fundo em todas as notícias de IA.
Vou tentar arranjar tempo para partilhar mais da minha viagem.

877,13K
O Teste de Turing Físico: sua casa está uma bagunça completa depois de um hackathon de domingo. Na segunda-feira à noite, você chega em casa para uma sala de estar imaculada e um jantar à luz de velas. E não dava para saber se um ser humano ou uma máquina estava lá. Enganosamente simples, insanamente difícil.
É a próxima Estrela Polar da IA. O sonho que me mantém acordado 12 da manhã no laboratório. A visão para a próxima plataforma de computação que automatiza pedaços de átomos em vez de pedaços de bits.
Obrigado Sequoia por me hospedar na AI Ascent! Abaixo está minha palestra completa sobre os primeiros princípios para resolver a robótica de uso geral: como pensamos sobre a estratégia de dados e as leis de escala. Garanto-lhe que serão 17 minutos de que não se arrepende!
107,4K
Um dia, na próxima década, teremos robôs em todas as casas, hospitais e fábricas, fazendo todos os trabalhos maçantes e perigosos com destreza sobre-humana. Esse dia será conhecido como "quinta-feira". Nem mesmo Turing ousaria sonhar nossa vida em seus sonhos mais loucos.

signüll21/04/2025
Nós cruzamos o teste de Turing e ninguém deu uma merda. sem desfiles. sem manchetes de primeira página. apenas... um encolher de ombros casual. Como "Ah, sim, as máquinas são inteligentes o suficiente para nos enganar agora. enfim, o que é para almoçar?"
Esse silêncio diz tudo sobre o ritmo em que estamos nos movendo.
De volta às minhas aulas de CS, o Teste de Turing era tratado como o chefe final. Agora, cada rutura é outra terça-feira maldita.
102,15K
Top
Classificação
Favoritos
Tendências on-chain
Popular no X
Principais financiamentos atuais
Mais notável