AI导读:

谷歌、Meta、李飞飞、英伟达等科技巨头加速布局世界模型,认为其是通向AGI的核心路径。文章探讨“读懂派”与“看懂派”分歧,分析世界模型在机器人、自动驾驶等领域的应用潜力,指出其虽缺乏现象级产品但底层技术挑战重大,未来发展需更多耐心。

  Gemini 3 Pro前脚刚亮相,Nano Banana Pro又紧随其后登场,短短几天,谷歌两大新品就掀翻全球AI圈,上演了一场“王者归来”的戏码。

  两款模型都来自DeepMind,眼下Gemini和Nano Banana余热未过,DeepMind已投身下一个方向——在最新采访中,DeepMind首席执行官兼联合创始人Demis Hassabis(戴密斯·哈萨比斯)直言世界模型是通往AGI的关键部分。作为当前AI领域最前沿的探索方向,世界模型通过构建物理世界的动态推演能力,为AGI(通用人工智能)的实现提供了全新路径。

  “世界模型是目前我投入最多时间的领域。你可能知道前几天发布的SIMA 2(注:谷歌一款基于Gemini技术的3D虚拟世界AI智能体),我有时候会把它称作‘在Genie思维中玩的SIMA’。这些东西让我着迷,我认为它们将是实现AGI的关键组件。它们在底层使用Gemini,但有各种扩展。”

  目前,谷歌内部已将世界模型用于训练其他智能体及机器人,哈萨比斯认为,世界模型会有很多内部研究用例,也将出现一些出色的外部应用。其核心产品谷歌Genie已从2D升级至能实时生成交互式3D环境的Genie 3,支持720p分辨率下动态世界的创建,为机器人、自动驾驶提供多元化训练场景。

  当被问及世界模型是否会迎来“ChatGPT时刻”时,哈萨比斯给出了肯定的回答,但只有解决了高昂的推理/服务成本瓶颈,并实现保持长时间一致性的能力之后,世界模型才能迎来真正的爆发时刻。

  ▌让AI“读懂”世界,还是“看懂”世界?

  当下,这种对“世界模型”的追求正迅速在谷研究一线中蔓延。Meta首席人工智能科学家杨立昆计划创立专注“世界模型”技术的初创公司,旨在突破网络数据局限,更准确呈现物理世界特性;李飞飞的WorldLabs推出首款产品Marble,由多模态世界模型驱动,可从图片、视频或文字中构建持久3D世界;英伟达也推出世界基础模型开发平台Cosmos,助力自动驾驶和机器人训练。

  从本质上来说,这背后触及的是AI最核心的分歧——想实现真正的AGI,是应该让AI通过文字“读懂”世界,还是让AI“看懂”世界?“读懂派”如OpenAI认为堆砌数据可自动涌现智能;“看懂派”则认为大语言模型仅是文本数据库,不理解物理世界。世界模型能让“感知”转化为“行动”,让“想象”落地为“创造”。

  尽管世界模型领域缺乏现象级消费产品(谷歌Genie几乎是唯一亮点),面临“雷声大、雨点小”的质疑,但其底层挑战更艰深,仍处于初期爬坡阶段,需要更多耐心与时间。


(文章来源:财联社)