世界模型成AGI关键路径:谷歌Genie、李飞飞WorldLabs、英伟达Cosmos竞速
AI导读:
谷歌、Meta、李飞飞、英伟达等科技巨头加速布局世界模型,认为其是通向AGI的核心路径。文章探讨“读懂派”与“看懂派”分歧,分析世界模型在机器人、自动驾驶等领域的应用潜力,指出其虽缺乏现象级产品但底层技术挑战重大,未来发展需更多耐心。
Gemini 3 Pro前脚刚亮相,Nano Banana Pro又紧随其后登场,短短几天,谷歌两大新品就掀翻全球AI圈,上演了一场“王者归来”的戏码。
两款模型都来自DeepMind,眼下Gemini和Nano Banana余热未过,DeepMind已投身下一个方向——在最新采访中,DeepMind首席执行官兼联合创始人Demis Hassabis(戴密斯·哈萨比斯)直言世界模型是通往AGI的关键部分。作为当前AI领域最前沿的探索方向,世界模型通过构建物理世界的动态推演能力,为AGI(通用人工智能)的实现提供了全新路径。
“世界模型是目前我投入最多时间的领域。你可能知道前几天发布的SIMA 2(注:谷歌一款基于Gemini技术的3D虚拟世界AI智能体),我有时候会把它称作‘在Genie思维中玩的SIMA’。这些东西让我着迷,我认为它们将是实现AGI的关键组件。它们在底层使用Gemini,但有各种扩展。”
目前,谷歌内部已将世界模型用于训练其他智能体及机器人,哈萨比斯认为,世界模型会有很多内部研究用例,也将出现一些出色的外部应用。其核心产品谷歌Genie已从2D升级至能实时生成交互式3D环境的Genie 3,支持720p分辨率下动态世界的创建,为机器人、自动驾驶提供多元化训练场景。
当被问及世界模型是否会迎来“ChatGPT时刻”时,哈萨比斯给出了肯定的回答,但只有解决了高昂的推理/服务成本瓶颈,并实现保持长时间一致性的能力之后,世界模型才能迎来真正的爆发时刻。
▌让AI“读懂”世界,还是“看懂”世界?
当下,这种对“世界模型”的追求正迅速在硅谷研究一线中蔓延。Meta首席人工智能科学家杨立昆计划创立专注“世界模型”技术的初创公司,旨在突破网络数据局限,更准确呈现物理世界特性;李飞飞的WorldLabs推出首款产品Marble,由多模态世界模型驱动,可从图片、视频或文字中构建持久3D世界;英伟达也推出世界基础模型开发平台Cosmos,助力自动驾驶和机器人训练。
从本质上来说,这背后触及的是AI最核心的分歧——想实现真正的AGI,是应该让AI通过文字“读懂”世界,还是让AI“看懂”世界?“读懂派”如OpenAI认为堆砌数据可自动涌现智能;“看懂派”则认为大语言模型仅是文本数据库,不理解物理世界。世界模型能让“感知”转化为“行动”,让“想象”落地为“创造”。
尽管世界模型领域缺乏现象级消费产品(谷歌Genie几乎是唯一亮点),面临“雷声大、雨点小”的质疑,但其底层挑战更艰深,仍处于初期爬坡阶段,需要更多耐心与时间。
(文章来源:财联社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

