机器人套垃圾袋？世界模型让AI学会‘推演未来’，这招绝了

时间:2026-06-22 08:08:29
浏览:59
来源:越西县融媒体中心

由《环球时报》进行报道, 记者是陈子帅。编者的话表明, 近些年来, 全球范围内那些顶级的科研团队, 都在努力尝试去打造一种被称作“世界模型”的人工智能大模型, 研究者们觉得只有世界模型才能够通往真正意义上的“智能”。本报记者在近日于北京所举行的一场科技大会上看到, 运用世界模型的机器人已经能够解决一些具备高难度的任务, 比如说给垃圾桶套上塑料袋, 为鲜花包装上上透明的外壳。参与接受采访的专业人士声称, 那种能够于环境范围之内预先判断其后果以及做出相应决策的世界模型, 是当下最为被人们看好的方向当中的一个, 它有着希望让人工智能具备那种“推演未来”的能力。

机器人套垃圾袋，难在哪

挂在墙上那个挂钩上的, 是一厚叠黑色垃圾袋, 人形机器人慢慢地朝着它靠近, 伸出右手手臂, 从垃圾袋开口的地方把它扯下来, 随之双手将垃圾袋撑开, 套在放置于地上的垃圾桶里头。把垃圾袋套上之后, 机器人还没忘记去做做“整理”, 让它尽可能平展一些, 像人类套垃圾袋时那般。这是近日《环球时报》记者在智源大会上所看到的场景, 它证实人形机器人的“聪慧”程度已然有了显著提高。

正在套垃圾袋的机器人陈子帅摄

我们平常所见到的机器人去抓物品, 通常是抓那种不会发生形变的硬邦邦的物体, 这表明机器人抓取物品的任意一个角落都能够成功成功抓取, 然而对于柔性的塑料袋而言情况并非如此这般。比如说, 当有风刮过时, 塑料袋就会发生形状的改变, 这对于机器人的智力来说算得上是极大的考验考验极大。除此之外, 黑色的袋子从视觉方面来看难以识别, 撕袋以及套袋的过程时间长、难以把控控制, 这些全都是曾经限制制约机器人的“滞碍点”“卡点”。而如今, 这些技术方面的阻碍堵点正在被一个一个逐一化解解决。

这是不能跟世界模型的支持相脱离的, 以往的时候, 在行业范围之内, 常常会运用VLA也就是视觉 - 语言 - 行为大模型去开展机器人的研发工作以及进行训练, 然而到了现在, 有好些科研机构都挑选采用世界模型这种方式去使机器人的能力得到增强, 在现场的那些技术人员告知《环球时报》的记者说, “VLA即便也是能够执行上面所说的那些任务的（这里的“上面所说的那些任务”指的是前面提到相关任务）并且在面对某些极端的状况的时候, 机器人是需要去尝试抓取好多回袋子然后才能够成功的, 可是世界模型不一样, 在机器人进行抓取动作之前, 它就会去‘预测’好几种不一样的抓法以及这些抓法究竟有没有成功的可能性, 世界模型所具有的优势就在于其纠正错误的能力。”。

现场, 《环球时报》记者看到, 基于世界模型, 中国科研机构打造了多款清洁机器人。它们有望在未来应用于酒店。餐桌前站着一个身材更“高大”的人形机器人。桌上有吃剩的小龙虾壳、外卖盒等垃圾。机器人先把虾壳放进外卖盒。接着将盒子扔到一旁的外卖袋里。最后用抹布擦净桌子。整个逻辑思路与人类清扫时相同。

有一台机器人, 它左手拿起了桌上那个黑色的锥形花盒, 在这一动作之后, 右手又拿起了透明的装饰壳, 把装饰壳套在了花盒的外面。之后呢, 机器人从花瓶当中捏起了鲜花, 将鲜花装到了花盒里面。接下来, 便是把装有鲜花的花盒递给了记者。在拿起鲜花这个动作进行时, 机器人精准地捏住了花枝部分, 并没有对花瓣造成破坏。除此之外, 机器人能够精准识别透明的包装壳, 这同样是一大技术进步。而除了完成这些, 机器人还完成了较高难度的“包装”任务, 不包括把打扫卫生这件事算了进去。

然而, 鉴于世界模型在训练方面以及数据量上依旧受限于一定程度, 致使某些具备超高难度级别的任务, 始终令机器人处于一种不知如何应对的尴尬境地。举例而言, 像是更换被套这样的工作任务, 即便是一名成年人去着手进行, 过程也绝非轻而易举之事, 而对机器人来讲, 无疑更是一项极具挑战性的艰难任务。

要把被芯从被套当中取出来, 接着去换上新的, 做这个事情得要两台机器人相互配合着才行, 然而即便如此, 仍然是留存着好多“意想不到的状况”, 现场的技术人员这般讲道。

从回答问题到规划行动

世界模型有着极其关键的一大用途, 那便是具身智能。回归到技术自身, 世界模型究竟是什么? 它与我们平常所见到的能够进行聊天的DeepSeek、GPT存在着什么样的不同?

新加坡南洋理工大学校长讲席上的教授, 身为人工智能交叉研究院的院长, 同时又担任人工智能系主任的安波, 在大会举行这一期间之时, 告知了《环球时报》此名记者, 像DeepSeek这类的大模型, 其本质上而言算是“语言的模型”。它们是借助那些海量的文字从而训练得出的, 其核心具备的能力是去预测“接下来这一个词究竟会是什么”, 你能够将它在脑海之中想象成是一个已经读完了全人类所有书籍的人, 它清楚这个世界是被如何进行描述的, 因此能够和你展开侃侃而愉快的交谈, 能够撰写文章, 能够回答各类问题, 但是它对于这个世界所拥有的认知了解, 是属于“经过转手的”、是由文字之中所学得而来的。而世界模型所要干的活呢, 是截然不同的另外一件事情, 它旨在促使AI于脑海之中构建起一个关于世界究竟怎样运行的内侧模拟器。恰似我们人类这般, 目睹一个杯子被推至桌子边缘之处, 无需去计算物理公式, 同样能够预先判断它将会掉落进而摔得粉碎, 哪怕闭上眼睛, 也能够去设想倘若自己如此这般去做, 后续将会发生何种状况。

世界模型是“预测下一个状态”, 安波说, 这指的是做了某个动作后环境会如何变化, 可语言模型仅为“预测下一个词”。这位学者表明会行动的智能体需世界模型服务, 使其能于环境中预判后果、开展决策, 针对机器人、自动驾驶、具身智能而言这相当关键。安波讲, GPT如同读尽所有游泳教材之人, 而世界模型是为使AI真正下水学会游泳所打造的。

眼下, 诸多AI领域的大咖, 其中涵盖了Meta前首席AI科学家杨立昆, 都在致力于开发世界模型。经分析得出, 世界模型并非依靠概率推理, 而是如同人类大脑那般, 拥有模拟以及预判的能力。去年11月份时, 美国斯坦福大学教授、World Labs联合创始人李飞飞宣称, 此刻以大型语言模型作为代表的AI系统太过“纸上谈兵”, 缺少对现实空间、物理规律以及因果关系的真切理解, 具备空间智能的AI能够突破这一限制, 而若要达成空间智能, 那就得转向世界模型。

另外, 当下各方针对世界模型的定义实际上是什么, 还没有形成统一的一致看法。智源研究院院长王仲远向记者表明, “当今大家是经由不一样的方法、不一样的角度去看待世界模型, 不过坚信最终会通过不同途径而抵达同一目的地。”。

去设想一下, 在几年之后, 你家里会存在一个机器人助手。当你说出“把厨房收拾一下”这句话的时候, 它不会傻乎乎到毫无头绪地随意乱抓, 而是会在自己的“脑子里”先行模拟一遍整个过程: 这个红酒杯是容易破碎的, 所以必须要轻拿轻放, 这盘还没有吃完的菜需要放进冰箱里面, 那把刀得小心避开等等诸如此类的情况。它能够预先判断每个动作可能产生的后果, 在这之后才会有胆量动手去做。而这背后所依靠的便是世界模型。安波对着《环球时报》的记者讲道, 家务机器人是世界模型领域里的一大非常重要的应用场景。但是, 王仲远告知《环球时报》的记者说, “世界模型自身处于早期阶段, 对于具身智能在本质上的影响以及突破, 还有待于去观察。”。

世界模型的另外一大应用范畴是自动驾驶, 当下的自动驾驶有时会显得“呆愣”, 原因在于它主要是针对当下情形做出反应, 然而具备了强大的世界模型后, 车能够如同经验丰富的老司机那般进行“预判”, 这种针对尚未发生之事的预先演练, 是安全的关键所在, 安波还列举了一个在他认知里更为“大胆”的事例, 即数字孪生与城市治理, 为一座工厂、一座城市构建可进行推演的数字分身, 借此预测交通拥堵、能源消耗以及突发事件的连锁反应, 以此辅助决策。安波讲道, 一旦 AI 切实拥有了进行推演的能力, 那么它便会从一个用于回答问题的工具, 转变成为一个可以协助我们对世界予以推演、对行动作出规划的伙伴。

未来十年的关键拼图

在北京大学计算机学院教授黄铁军看来, 我们期望具身智能如同人类一般, 于任何场景皆具备“通用性”, 这便需要机器人在真实的物理场景里能够看、能够听且能够接触, 而世界模型乃是助力机器人去理解世界万物规律的存在。从这样的目标予以考量, 世界模型的研发迄今仍处于初期阶段。黄铁军教授将上述内容告知了《环球时报》记者。

正在插花的机器人陈子帅摄

要客观地这么讲, 世界模型如今正处于这样一种状况, 就是从实验室概念朝着“可用系统”迅速迈进, 已然抵达那临界点之处, 并且已经能够做出极为惊艳的演示版本, 然而距离真正达到成熟状态, 能够大规模地实现实际应用, 仍是存在着一段进程的。安波举例子说道, 在今年2月份的时候, 自动驾驶公司Waymo它把谷歌DeepMind团队的Genie 3进行了改造, 使之成为专门作用于自动驾驶仿真的“Waymo世界模型”, 借助这个模型来生成在现实当中非常少见的极端场景, 像突发龙卷风这种情况, 或者是路上遇到大象这种场景, 以及金门大桥上下雪这种场景等等, 通过这些场景来训练自动驾驶系统。“这说明世界模型已经开始在真实产业里干活了。”

许多学者, 其中包括安波, 都持有这样的观点, 即当下世界模型正遭遇一项技术难题, 那就是在面对长程、开放式任务时, 尚未呈现出稳定且可靠的表现。现今的模型, 生成短时间的画面相当逼真, 然而一旦要求它持续往后推演较长时间, 误差便会如同滚雪球一般不断累积、放大, 进而致使画面变得模糊, 物体凭空消失, 甚至出现违背物理规律的状况。

安波表示, 可以讲述为我们创造出了具备会“做梦”能力的AI, 然而这个梦尚不够稳定, 且不够契合物理现实, 而这恰恰是当下研究的核心攻坚所在之处, 是需要攻克的重点。

曾有众多AI企业, 将制造如同人这般聪慧的通用人工智能也就是AGI, 当作终极目标里的其中一个。那么, 世界模型所具备的能力, 真的是如此强大吗? 它是否会成为AI接下来的前沿领域呢?

安波说, 世界模型确切来讲是当下极为被寄予深厚期望的众多方向当中的一个方向, 能够这么讲, 它是朝着AGI以及具身智能推进过程里的关键拼图构件, 原因在于, 一个对于物理世界缺乏理解理会的智能, 难以被认定为是完备无缺的智能, 然而这位学科方面的资深研究者一样觉得, 运行于电子网络之内且以海量数据作为支撑的AI大模型所延展出来的众多路径, 到底哪一条路径更具优势, 依旧需要持续加以观察审视, 大语言模型这条路径目前距离尽头还非常遥远漫长, 而世界模型目前的状况是尚处于较为初始的阶段时期, 在技术层面之上仍然横亘放置着众多棘手难解决的问题需要去攻克化解。

《环球时报》的记者，在差不多一年时间的实地采访当中看到, 国内有好多科研机构, 还有众多企业, 都已然开始朝着开发那个世界模型转变方向前行。此外, 还有一个特别显著的趋势是, 在过去的几年里, AI的关键的词语是“会说话“, 这意味着能够理解语言, 并且生成语言, 然而现如今, 增多的科学家正促使AI从“会说”朝着“会想”的以及“会做”的方向发展。“未来3到5年都会是世界模型持续不断地演进以及迭代更迭的阶时间段。“王仲远讲道。

深圳市人工智能与机器人研究院具身智能中心主任刘少山, 针对世界模型跟具身智能二者之间的关系, 向《环球时报》记者表明, 世界模型竭尽努力对环境予以理解以及预测, 具身智能着重于在跟环境互动期间产生智能, 所以世界模型有可能是具身智能的下一个突破口。

在过去的这10年里头, 我们把知晓以及催生信息以教会AI的方式达成了, 紧接着的之后10年所涵盖的主旨, 极有可能是将预测、筹划同做出行动教授于其的了, 然而在这个切换转变当中起到最具有决定性作用的那部分拼接组合的, 正是世界模型。安波此番表示道。

机器人套垃圾袋？世界模型让AI学会‘推演未来’，这招绝了

华润新能源上市狂吸245亿！这口绿电肥肉，散户能啃到吗？

Hugging Face倒贴送算力！马斯克都服了，GLM-5.2让老外直呼真香

AI中转站乱象丛生，风险高监管出手，用户小心被割韭菜

配套小学变民办高中？别拿闲置三年当借口，孩子的未来等不起

16.5亿砸向山顶豪宅，风水师跳出来喊亲戚？这操作绝了