AI导读:

  “我们已经迈入了智能体化的Gemini时代。”北京时间5月20日,谷歌CEO Sundar Pichai站在I/O大会的聚光灯下表示。在今年,Gemini应用程序(App)月活用户数较去年已翻倍,超过9亿;谷歌搜索功能中的“AI概览”(AI Overviews)目

  “我们已经迈入了智能体化的Gemini时代。”北京时间5月20日,谷歌CEO Sundar Pichai站在I/O大会的聚光灯下表示。在今年,Gemini应用程序(App)月活用户数较去年已翻倍,超过9亿;谷歌搜索功能中的“AI概览”(AI Overviews)目前月活跃用户已突破25亿;“AI模式”(AI Mode)的用户已超过10亿。

  这是谷歌历史上最好的时刻之一。过去一年,Alphabet股价涨了140%,市值逼近5万亿美元大关。这比2023年那种“被OpenAI摁在地上摩擦”的窘迫,已是天壤之别。

  共识的另一面总是悬着疑虑。当模型层逐渐商品化,谷歌的护城河究竟在哪里?Anthropic等会不会成为颠覆其业务的“特洛伊木马”?AI搜索若大幅降低外部点击率,谷歌赖以为生的广告模式将如何重构?

  这场大会没有带来惊天动地的“iPhone时刻”,甚至模型的更新也不是唯一的重点,但谷歌团队展示了其内部逻辑——从芯片(TPU)、模型(Gemini 3.5/Omni)到应用层(搜索/购物),谷歌试图证明,它将是AI商业化浪潮中唯一能够从端到端吃下全部红利的整合者。

  模型更新,为了“Agent”

  在发布节奏上,谷歌显得异常克制。市场此前对Gemini 4.0抱有极高期待,但最终登台的是Gemini 3.5系列及全新的全模态模型Gemini Omni。

  Gemini 3.5系列模型是谷歌迄今为止在智能体(Agent)能力上最大的一次升级。与此前版本相比,新系列的核心特点是速度快和成本低,谷歌宣称其输出速度是同类前沿模型的4倍,而价格却不到一半。毫无疑问,它从一开始就是为“Agent”设计的。

  “目前头部的科技企业每天大约需要处理1万亿个Token。如果他们选择将其中80%的日常工作负载从其他前沿模型迁移到Gemini 3.5 Flash上,每年将节省超过10亿美元。”Sundar Pichai称。在开发者生态的争夺中,成本优势往往比性能优势更具杀伤力。

  Google这次还配套推出了名为Antigravity的开发平台,本质上是一个智能体协作框架。Gemini 3.5 Flash在这个框架下可以部署多个子智能体,并行处理复杂任务。目前已有企业在使用。

  面向消费端,Gemini 3.5 Flash已成为Gemini App及Google搜索AI模式(AI Mode)的默认模型。大会上谷歌还预告了名为“Gemini Spark”的个人AI代理,该功能基于Gemini 3.5 Flash运行,可7×24小时在用户授权下执行数字生活管理任务。

  为了支撑智能体时代Token的消耗,谷歌首次将训练与推理芯片分开,发布了针对大规模预训练的TPU 8t和专注高效推理的TPU 8i。两款芯片的能效均比上一代提升约2倍。

  另一个值得关注的模型是Gemini Omni,谷歌首个原生多模态生成模型,目前先推出Gemini Omni Flash版本。

  它将谷歌近年来积累的多项顶尖媒体生成模型,无缝整合到了Gemini系统的多模态推理框架之中,包括负责高清长视频生成的Veo、实现图像精细化控制的Nano Banana,以及支持实时互动生成的Genie。

  从官方演示来看,Omni Flash的差异化在于“世界知识”与“生成能力”的结合。它不仅能依据物理直觉生成符合重力、流体动力学规律的逼真画面,还能调用Gemini在科学、历史和文化领域的知识储备,将复杂概念转化为视觉叙事。

  目前Omni Flash已面向Google AI Plus、Pro和Ultra订阅用户开放,并集成至Gemini应用、Google Flow和YouTube Shorts。谷歌表示未来还将扩展图像和音频输出能力,并向开发者和企业客户开放API。

  搜索的新生

  对于谷歌而言,更为显著的变革在于搜索。

  自从ChatGPT问世以来,“谷歌灭绝论”就不绝于耳。人们认为,如果AI直接给出答案,搜索引擎赖以生存的“广告点击”模式就会崩塌。

  不过,谷歌搜索与AI的结合一直以来都比较顺畅,其公布的数据显示,AI概览(AI Overviews)的月活跃用户数已超过25亿。而搜索的AI模式(AI Mode)在推出一年内,其月活跃用户数就已经突破了10亿大关。

  “当用户在搜索中体验到这些AI驱动的功能后,他们使用搜索的频率更高了。搜索不再仅仅是简单的一问一答,而更像是一场连续的对话,它协助用户获取更深层的洞察,并无缝连接互联网上的海量信息。”Sundar Pichai在大会上表示。

  而现在,谷歌决定把这个入口彻底AI化。

  在本次大会上,谷歌推出了25年来最大的搜索框升级,新的智能搜索框不再是静态的输入栏,而是具备动态扩展能力的交互界面。

  为此,新版搜索框被设计得更具弹性,支持自然语言的长尾提问,并打通了文本、图片、视频甚至Chrome标签页的多模态输入。系统还会基于AI推测用户意图,提供超越传统自动补全的提问建议。

  谷歌还推出了信息智能体,可以在后台7×24小时监控网络信息,从博客、新闻、社交媒体到实时金融、购物、体育数据,一旦发现与设定条件匹配的变化就主动推送。

  比如用户可以让智能体持续扫描符合特定条件的租房信息,或者监控某位运动员的联名鞋发售动态。同时,搜索还扩展了预订能力,覆盖本地体验和服务,甚至能代用户打电话联系商家。

  对于谷歌搜索来说,如此庞大的流量底座,若仍仅展示传统广告链接,无疑是商业价值的浪费。通过让AI生成更深度的答案、更复杂的界面,Google实际上在重新定义搜索结果的“展示位”,为AI时代的广告模式铺路。

  值得注意的是,谷歌对智能体的应用不止局限于搜索。除了搜索,谷歌还展示了同样具有智能体元素的购物功能,Universal Cart(通用购物车)。这是一款由AI智能体驱动的跨平台购物车,可在搜索、Gemini应用、YouTube和Gmail中使用。但它的能力远超传统的“购物车”,可以追踪优惠信息、监控价格变动、显示价格历史、在商品重新上架时提醒用户等等。

  更深层的布局是UCP(Universal Commerce Protocol,通用商业协议)。谷歌联合亚马逊沃尔玛、Shopify、Meta等巨头推出了这一开源协议,让AI智能体可以直接在合作平台上完成购买和预订。对于谷歌而言,这是争夺电商入口控制权的关键一役。

  眼镜硬件:智能体的“眼”

  软件与服务构建了智能体的“里子”,而硬件决定了它能以多快的速度成为用户日常的一部分。

  十余年前Google Glass的折戟并未让谷歌死心。本次大会上,谷歌携手三星及时尚品牌Warby Parker、Gentle Monster,正式发布了新款Android XR智能眼镜。此次发布的眼镜分为两个版本:一款是无显示的音频眼镜,另一款是带有显示功能的AR眼镜。

  与2013年那款被嘲讽为“Glasshole”(眼镜怪胎)的产品不同,谷歌从失败中吸取了两个教训:

  第一,不标榜“科技”,强调“时尚”。眼镜的外观设计与普通镜框无异,由Warby Parker和Gentle Monster操刀设计,弱化了“这是科技产品”的视觉信号。

  第二,砍掉冗余功能,聚焦核心场景。初代产品仅保留音频和摄像头,眼镜通过镜腿中的扬声器与用户交互,摄像头让Gemini能够“看到”用户眼前的场景。用户可通过语音唤醒或轻触镜腿调用Gemini,实现多场景下的无手机操作。

  音频眼镜将率先上市,预计于今年秋季晚些时候推出。带显示屏的进阶版本仍在开发中,预计将在音频版本之后推出。

  不只谷歌,当前全球头部科技企业均在加速布局AI智能眼镜。苹果已于2026年5月披露将研发资源全面转向代号N50的轻量化AI眼镜项目,计划2026年末至2027年初推出无屏AI智能眼镜,深度联动iPhone与Apple Intelligence;华为于4月发布首款鸿蒙AI眼镜;阿里则在3月、4月先后推出千问AI眼镜G1和S1系列。

  不过,谷歌的硬件战略远不止于设备形态本身。Android XR平台兼容绝大多数Android应用,用户无需额外适配即可在眼镜上使用熟悉的App生态,类似于安卓系统当年通过开放生态扩张的路径。而此番与Xreal、Gentle Monster、Warby Parker等不同赛道玩家的合作,也体现了谷歌“开放式生态”的战略思路。

  对于谷歌而言,眼镜是继手机之后,下一个计算平台的入口。一旦眼镜普及,流量入口将从搜索引擎转向,Gemini将成为默认的操作系统,而谷歌将重新掌握硬件入口的主动权。

  纵观整场发布会,谷歌证明了它仍然是极少数有能力进行“全栈式AI创新”的公司。从自研TPU芯片对抗英伟达的垄断,到基础模型,再到数十亿人的应用入口,最后到眼镜等硬件终端,谷歌构建了一条新的护城河。

  站在2026年这个智能体爆发的节点上,答案尚未尘埃落定。技术优势如何转化为优质的用户体验和可持续的商业模式,将是谷歌持续面临的考验。

(文章来源:21世纪经济报道)