AI导读:

谷歌宣布推出两款基于Gemini 2.0的新型AI模型,专为开发更灵活、可互动的机器人设计,有望推动机器人在更多场景中的应用和普及。Meta、特斯拉等科技巨头也在加大机器人领域研发投入,众多初创公司崭露头角,显示了机器人领域的巨大潜力。

  财联社3月13日讯当地时间周三,谷歌宣布推出两款基于Gemini 2.0的新型人工智能(AI)模型,这两款模型专为开发更灵活、可互动的机器人设计,未来有望推动机器人在更多场景中的应用和普及,引领AI与机器人技术融合的新趋势。

  谷歌指出,这些最新的AI模型适配各种形状的机器人,涵盖了从人形机器人到工厂、仓库中使用的各类机器人,展现了广泛的适用性。

  据谷歌详细介绍,其中一款名为Gemini Robotics的模型,是一款视觉-语言-行动模型,具备通过物理动作输出结果的能力,使机器人能够理解并执行复杂的自然语言指令。简而言之,Gemini Robotics能够听懂人类指令,执行相应操作。

  另一款名为Gemini Robotics-ER的模型,则专注于空间推理,是一个视觉-语言模型,有助于机器人更好地理解周围环境,并支持开发者利用其强大的推理能力运行自定义程序。

  谷歌DeepMind工程师Kanishka Rao表示,谷歌将Gemini模型应用于机器人领域,正推动机器人技术向更智能、更通用的方向发展。他强调:“我们的世界复杂多变,通用智能机器人需具备应对这种复杂性的能力。”

  同时,Meta、特斯拉OpenAI等科技巨头也在加大机器人领域的研发投入,众多初创公司如Figure AI和Skild AI等也在该领域崭露头角,这些公司的估值均达到数十亿美元,显示了机器人领域的巨大潜力和吸引力。

  在预先录制的演示视频中,谷歌研究人员展示了运行其技术的机器人如何响应简单指令。例如,一台机器人站在字母拼图前,在训练员要求下成功拼出了单词“Ace”。

  工程师们还在实验室搭建了一个迷你玩具篮球场,另一台机器人在被要求完成扣篮动作时,成功将塑料球投入篮筐,展现了Gemini模型在理解和执行复杂任务方面的出色能力。

  Rao兴奋表示:“当我们首次目睹机器人扣篮时,整个团队都激动不已。因为机器人从未见过与篮球相关的任何事物,但它通过Gemini理解了篮网的外观以及‘扣篮’一词的含义,并将二者联系起来,在现实世界中成功完成了这项任务。”

  然而,谷歌强调,这项工作仍处于“早期探索”阶段。DeepMind研究员Vikas Sindhwani指出,Gemini模型是在对物理环境中的“常识性安全”有深刻理解的基础上开发的,确保了技术的安全性和可靠性。

  他还提到,谷歌计划逐步部署这些机器人,最初将它们放置在与人类保持安全距离的位置,并随着安全性能的不断提升,逐渐增加其互动性和协作性,为人类生活带来更多便利和可能性。

(文章来源:财联社)