热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Jim Fan
NVIDIA 机器人总监和杰出科学家。GEAR 实验室联合负责人。解决物理 AGI,一次一个电机。斯坦福大学博士,OpenAI 的第一位实习生。
Vibe Minecraft:一个多玩家、自洽、实时的世界模型,允许构建任何东西和召唤任何物体。工具的功能甚至游戏机制本身都可以通过自然语言编程,例如“时间镐:将任何方块恢复到之前的状态”和“当独角兽经过时,瀑布变成彩虹桥”。玩家共同定义和操控一个共享的世界。
神经模拟以*多模态*系统提示为输入:游戏规则、资产png、全球地图和复活节彩蛋。它定期将游戏状态保存为一系列潜在向量,可以重新加载到上下文中,选项上可以附加“指导文本”以便于编辑。每个玩家都有自己的显式状态json(健康、库存、3D坐标),以及捕捉更高阶交互历史的隐式“玩家向量”。
游戏管理员可以创建一个Minecraft多元宇宙,因为不同服务器的潜在向量是兼容的。每个世界可以无缝交叉,几秒钟内生成新的世界。人们可以与朋友或自己的过去状态进行混合与匹配。“稀有向量”可能会出现,因为一些玩家不可避免地会游荡到世界模型的奇异、未知潜在空间。那些浮动矩阵可以作为NFT进行交易。你尝试的越疯狂,挖掘稀有向量的可能性就越大。
谁先发布Vibe Minecraft,谁就将载入史册,永远改变游戏的进程。

5.98K
我很想看到FSD扩展法则,因为这是唯一在行星规模上的物理数据飞轮。模型/数据大小的“涌现能力阈值”是什么?

Elon Musk8月6日 16:02
特斯拉正在训练一个新的FSD模型,参数数量约为10倍,并且在视频压缩损失方面有了很大的改进。
如果测试顺利,可能会在下个月底准备好公开发布。
71.89K
这是游戏引擎 2.0。总有一天,UE5 的所有复杂性将被一个数据驱动的注意力权重块所吸收。这些权重以游戏控制器命令为输入,直接动画化一个时空像素块。
Agrim 和我在斯坦福视觉实验室时是密友和合著者。看到他在如此酷的研究前沿真是太棒了!恭喜!

Agrim Gupta8月5日 22:14
介绍Genie 3,我们最先进的世界模型,可以从文本生成互动世界,支持以24帧每秒的速度进行实时互动,并在720p下保持数分钟的一致性。🧵👇
9.97K
我在机器人领域观察到一个迷你版的莫拉维克悖论:对人类来说困难的体操动作,对机器人来说却要简单得多,而像烹饪、清洁和组装这样的“无趣”任务却相对困难。这导致了外行人产生认知失调,“所以,机器人可以做跑酷和霹雳舞,但为什么它们不能照顾我的狗?”相信我,我的父母问过我这个问题的次数比你想象的要多……
“机器人莫拉维克悖论”也造成了物理AI能力远比实际更先进的错觉。我并不是单独指责Unitree,因为这适用于行业内所有最近的杂技演示。这里有一个简单的测试:如果你在侧翻机器人面前设置一面墙,它会全力撞上去,制造出一场壮观的场面。因为它只是过拟合了那一个参考动作,而对周围环境没有任何意识。
悖论存在的原因是:训练一个“盲人体操运动员”要比训练一个能够看见和操控的机器人容易得多。前者可以完全在模拟中解决,并且可以零样本转移到现实世界,而后者则需要极其真实的渲染、接触物理和混乱的现实物体动态——这些都无法很好地模拟。
想象一下,你可以从一个纯手工制作的文本控制台游戏中训练LLM,而不是从互联网。机器人专家们运气不错。我们恰好生活在一个加速物理引擎如此优秀的世界中,以至于我们可以在几乎没有真实数据的情况下实现令人印象深刻的杂技表演。但我们尚未发现通用灵巧性的同样作弊代码。
在那之前,我们仍然会被困惑的父母质疑。
351.84K
我的 AGI 酒吧要简单得多:人工智能在任何人家为任何美食烹制一顿丰盛的晚餐。物理图灵测试很可能比诺贝尔奖更难。在未来十年里,莫拉维克的悖论将继续困扰着我们,越来越大、越来越黑暗。

Thomas Wolf2025年7月19日
我对AGI的标准是,一个AI获得诺贝尔奖,因其原创的新理论。
99.26K
我最近在X上有点安静。过去一年是一个变革的经历。Grok-4和Kimi K2都很棒,但机器人技术的世界就像一个奇妙的西部荒野。感觉就像2018年的自然语言处理,当时GPT-1发布,BERT和其他一千朵花也相继绽放。没有人知道哪个最终会成为ChatGPT。辩论非常激烈。熵值高得惊人。想法非常有趣。
我相信机器人的GPT-1已经在Arxiv的某个地方,但我们不知道确切是哪个。可能是世界模型、强化学习、从人类视频学习、sim2real、real2sim等等,或者它们的任何组合。辩论依然激烈。熵值高得惊人。想法非常有趣,而不是在AIME和GPQA上挤出最后的几个百分点。
机器人的本质也大大复杂化了设计空间。与LLM(文本字符串)干净的比特世界不同,我们的机器人专家必须处理混乱的原子世界。毕竟,循环中有一块软件定义的金属。LLM的普通人可能很难相信,但到目前为止,机器人专家仍然无法就基准达成一致!不同的机器人有不同的能力范围——有些在杂技方面表现更好,而其他则在物体操作方面更强。有些是为工业用途而设计的,而其他则是为家庭任务而设计的。跨体现不仅仅是一个研究新奇,而是一个通用机器人大脑的基本特征。
我与来自各种机器人公司的数十位C-suite领导进行了交谈,无论是老公司还是新公司。有些出售整个身体。有些出售如灵巧手这样的身体部件。还有许多其他公司出售制造新身体、创建模拟或收集大量数据的铲子。商业创意空间与研究本身一样狂野。这是一场新的淘金热,自2022年ChatGPT浪潮以来,我们还没有见过这样的情况。
进入的最佳时机是当非共识达到顶峰时。我们仍然处于损失曲线的开始阶段——有强烈的生命迹象,但距离收敛还远得很。每一步梯度都将我们带入未知。但我确实知道一件事——没有触摸、感受和在混乱的世界中具身,就没有AGI。
在更个人的层面上——经营一个研究实验室带来了全新的责任感。直接向一家价值4万亿美元公司的CEO汇报进展,温和地说,这既令人兴奋又消耗了我所有的注意力。过去我可以跟上并深入了解每一条AI新闻的日子已经一去不复返了。
我会尽量抽出时间分享我的更多旅程。

877.14K
在未来的十年里,总有一天,我们会在每个家庭、每家医院和工厂中看到机器人,它们以超人的灵巧完成每一项枯燥和危险的工作。那一天将被称为“星期四”。即使是图灵也不敢在他最狂野的梦想中想象我们的时代。

signüll2025年4月21日
我们通过了图灵测试,但没人在乎。没有庆祝游行,没有头版头条新闻。只是……一种随意的耸肩反应,就像“哦,对了,机器现在已经聪明到可以骗过我们了。话说回来,午饭吃什么?”
这种沉默告诉你我们前进的速度有多快。
回想我在计算机科学课上,图灵测试被视为最终的挑战。现在,每一次突破都像是另一个普通的星期二。
102.16K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可