AI导读:

  “我希望当我口渴时,机器人不会把别人喝过的水拿给我;当我找不到厕所时,它能主动帮我去问路;按完电梯后,它知道走到亮灯的电梯门前等着。”
  这不是在测试一个孩子的教养,而是智源研究院具身Infra与数据负责人姚国才

  “我希望当我口渴时,机器人不会把别人喝过的水拿给我;当我找不到厕所时,它能主动帮我去问路;按完电梯后,它知道走到亮灯的电梯门前等着。”

  这不是在测试一个孩子的教养,而是智源研究院具身Infra与数据负责人姚国才,在4月16日下午举行的觅蜂科技一站式物理AI数据服务平台发布会上,对理想中的机器人提出的“三个朴素愿望”。这番话说出了很多人的心声,也瞬间点燃了一场关于“具身智能到底缺什么”的深度圆桌讨论。

  来自觅蜂科技、光轮智能、极佳视界、原力灵机、智源研究院及阿里云的六位行业专家围坐一堂,围绕数据规模、模型涌现、生态卡点等核心议题展开了一场干货满满的对话。

  AGI时代究竟需要多少小时物理AI数据?

  姚国才没有直接给出数字,而是先给记者算了一笔简单的账:“一个人每天与物理世界交互10小时,连续交互10年,也就3万多小时。一个10岁小孩能做到的事,现在哪一台机器人能做到?”他认为,行业不应只埋头“堆数据”,更应通过模型架构的创新来提高数据利用效率。他打了个比方:“我们希望数据量不断增多,同时模型对数据的需求不断减少,两者双向奔赴,那时离目标就更近了。”

  极佳视界联合创始人朱政则从现实成本出发,给这股热情“降了降温”:“现在采集一小时数据大概需要两百块钱,按这个成本算,几百亿小时的数据采集费用是任何创业公司都覆盖不起的。”他补充道,即便有了数据,训练所需的GPU算力成本同样惊人。

  光轮智能CEO谢晨认为数据不是燃料,而是人的教育:“一个好的教育是基于言传身教,在足够开放、足够真实的场景下给你越来越多的长程示范。”他预测,最终会有10亿个“数据生成器”——包括人类、真机、仿真系统——源源不断地产生数据,驱动整个行业迭代。

  当讨论从“数量”转向“质量”时,朱政直言不讳地指出:“现在的数据太干净了。”他解释,目前绝大多数采集数据都是在实验室环境或人工设置好的场景下完成的,而且基本都是成功轨迹,缺乏失败和反事实的样本。“我们训练世界模型时,不仅需要成功轨迹,更需要因果推理和失败的轨迹。如果只见过成功数据,模型就很难泛化到强化学习所需要的复杂环境中。”

  机器人“情商”何时及格?生态卡点在哪儿

  “我口渴了,桌面上有一瓶水是姚卯青喝过的,我希望机器人不要直接拿给我,而是懂得去拿一瓶新的。”姚国提出的对机器人的要求,把讨论从技术拉回到了人的真实需求。这番话让记者意识到,我们需要的机器人,远不只是“会干活”的工具,而是一个真正懂人情、懂物理世界规则的伙伴。

  当被问及当前具身智能数据生态最大的卡点时,几位专家给出了不同的答案。姚国才认为“标准”是当务之急:“我们训模型时用了很多开源数据,大量时间都花在格式转化和坐标系统一上。随着触觉、声音甚至脑电等更多模态的加入,标准不统一的问题会越来越严重。”

  原力灵机联合创始人范浩强关注的是数据之后的价值衡量链条:“市面上数据五花八门,但我们真正缺什么、需要什么,很难被回答。我们需要以评测为牵引,像当年的ImageNet那样,既有训练集也有同步的测试方法,才能推动模型和数据的共同进步。”

  近一个小时的圆桌讨论,没有达成共识,却让人看到了这个行业最真实的一面:关于怎么“教”机器人像人一样懂事,这场讨论才刚刚开始。正如主持人所言,数据决定上限,生态决定未来。而那个能主动帮你问卫生间在哪儿的机器人,或许比我们想象中来得更慢,但一定比我们想象中更值得等待。

(文章来源:广州日报)