世界模型成AGI关键路径：谷歌Genie、李飞飞WorldLabs、英伟达Cosmos竞速

财经聚焦 2025-11-22 09:35:14 来源：财联社作者：网络

AI导读：

谷歌、Meta、李飞飞、英伟达等科技巨头加速布局世界模型，认为其是通向AGI的核心路径。文章探讨“读懂派”与“看懂派”分歧，分析世界模型在机器人、自动驾驶等领域的应用潜力，指出其虽缺乏现象级产品但底层技术挑战重大，未来发展需更多耐心。

　　Gemini 3 Pro前脚刚亮相，Nano Banana Pro又紧随其后登场，短短几天，谷歌两大新品就掀翻全球AI圈，上演了一场“王者归来”的戏码。

　　两款模型都来自DeepMind，眼下Gemini和Nano Banana余热未过，DeepMind已投身下一个方向——在最新采访中，DeepMind首席执行官兼联合创始人Demis Hassabis（戴密斯·哈萨比斯）直言世界模型是通往AGI的关键部分。作为当前AI领域最前沿的探索方向，世界模型通过构建物理世界的动态推演能力，为AGI（通用人工智能）的实现提供了全新路径。

　　“世界模型是目前我投入最多时间的领域。你可能知道前几天发布的SIMA 2（注：谷歌一款基于Gemini技术的3D虚拟世界AI智能体），我有时候会把它称作‘在Genie思维中玩的SIMA’。这些东西让我着迷，我认为它们将是实现AGI的关键组件。它们在底层使用Gemini，但有各种扩展。”

　　目前，谷歌内部已将世界模型用于训练其他智能体及机器人，哈萨比斯认为，世界模型会有很多内部研究用例，也将出现一些出色的外部应用。其核心产品谷歌Genie已从2D升级至能实时生成交互式3D环境的Genie 3，支持720p分辨率下动态世界的创建，为机器人、自动驾驶提供多元化训练场景。

　　当被问及世界模型是否会迎来“ChatGPT时刻”时，哈萨比斯给出了肯定的回答，但只有解决了高昂的推理/服务成本瓶颈，并实现保持长时间一致性的能力之后，世界模型才能迎来真正的爆发时刻。

　　▌让AI“读懂”世界，还是“看懂”世界？

　　当下，这种对“世界模型”的追求正迅速在硅谷研究一线中蔓延。Meta首席人工智能科学家杨立昆计划创立专注“世界模型”技术的初创公司，旨在突破网络数据局限，更准确呈现物理世界特性；李飞飞的WorldLabs推出首款产品Marble，由多模态世界模型驱动，可从图片、视频或文字中构建持久3D世界；英伟达也推出世界基础模型开发平台Cosmos，助力自动驾驶和机器人训练。

　　从本质上来说，这背后触及的是AI最核心的分歧——想实现真正的AGI，是应该让AI通过文字“读懂”世界，还是让AI“看懂”世界？“读懂派”如OpenAI认为堆砌数据可自动涌现智能；“看懂派”则认为大语言模型仅是文本数据库，不理解物理世界。世界模型能让“感知”转化为“行动”，让“想象”落地为“创造”。

　　尽管世界模型领域缺乏现象级消费产品（谷歌Genie几乎是唯一亮点），面临“雷声大、雨点小”的质疑，但其底层挑战更艰深，仍处于初期爬坡阶段，需要更多耐心与时间。

（文章来源：财联社）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。