AI导读:

  “有多少数据,就有多少AI能力;数据质量越好,AI能力就越强。”
  4月29日,在第九届数字中国建设峰会期间,宇树科技创始人、CEO王兴兴重申数据的重要性:凡是有足够高质量数据的领域,现有AI技术就有能力解决问题。他表示,

  “有多少数据,就有多少AI能力;数据质量越好,AI能力就越强。”

  4月29日,在第九届数字中国建设峰会期间,宇树科技创始人、CEO王兴兴重申数据的重要性:凡是有足够高质量数据的领域,现有AI技术就有能力解决问题。他表示,人形机器人领域的数据仍十分稀缺,需要大量高质量数据支撑。

  峰会期间,蚂蚁集团研究院院长李振华在一场论坛上也提到,高质量的标注数据已成为制约模型智能上限的一大痛点。尤其在专业垂直领域,国内大模型和海外同行在高质量标注数据的搭建上存在明显差距。

  如何缓解行业的“数据饥渴”,加快高质量数据集建设?国家层面首次推出数据集管理服务平台。4月29日,南都记者从国家数据局获悉,国家数据集管理服务平台在数字中国建设峰会上正式发布并启动试运行(访问地址:https://www.ndsms.cn),标志着我国高质量数据集建设工作迈入集约化管理新阶段。

图片

  国家数据集管理服务平台官网首页。

  官网信息显示,目前该平台已发布1000余个数据集,用户可在相应专区按模态(文本、图像、音视频、3D等)、领域、行业、供给方选取数据集,也可以发布具体需求。比如,北京国际大数据交易所于4月9日提交了“具身智能训练数据”需求,场景要求为家居操作场景。科大讯飞也发布了“中文情感对话数据”的需求,希望寻求两人情感陪伴对话数据,累计不低于1000h,不低于1000人。目前这些需求的状态显示仍待洽谈。

  据国家数据局介绍,平台服务三类核心用户,一是向数据管理部门提供数据集目录管理、建设情况监测等功能,提升数据集管理效能;二是向数据集供给方提供数据集发布、凭证申领、质量测评等功能,赋能高质量数据集建设;三是向数据集需求方提供查询检索、需求发布等功能,加快数据集流通利用。

  南都记者了解到,国家数据集管理服务平台由国家数据局指导、国家数据发展研究院建设和运营,旨在进一步促进高质量数据集有效供给,繁荣产业生态。目前,该平台已开放供需发布、全域检索、凭证申领等基本功能,并与国家数据基础设施以及安徽省等地方平台完成对接。截至4月30日,平台已认证供需机构254家。

图片

  国家数据集管理服务平台官网页面。

  数据正在加速赋能人工智能的创新发展。4月29日,在数字中国建设峰会上的发布《全国数据资源调查报告(2025年)》显示,国内已建成高质量数据集数量超11万个,规模超908拍字节(PB),全年词元(Token)调用量约21100万亿。随着人工智能的发展,市场对数据的需求也从基础语料到行业高质量数据集拓展。

  国家数据发展研究院副院长袁军表示,当前,人工智能正处于从“可用”迈向“好用”的关键跃升期,高质量数据集作为大模型训练的“基石”,其供给规模和质量直接决定了人工智能创新高度和产业落地深度。

  但与此同时,袁军提到,国内高质量数据集客观上仍面临三大痛点:一是建设主体分散,导致数据管理部门难以全面掌握资源底数与建设进展;二是供给侧信息不对称,容易出现重复建设、质量参差不齐等问题;三是需求侧获取成本高、周期长,制约技术创新效率。为此,国家数据局启动了国家数据集管理服务平台建设。

  据袁军介绍,目前,平台已与国家数据基础设施以及安徽省等地方平台完成对接,未来还将联通国家公共数据资源登记平台、国家数据产权登记服务平台,支持地方与行业平台对接互通,形成国家级平台牵引、地方和行业协同的一体化格局。

  袁军说,下一步,将持续扩大用户范围,广泛调动各类重点供需主体,快速提升用户与资源规模,同时提升数据集汇聚效率。预计到2026年底,全面建成覆盖数据集全生命周期、贯通各地区各部门的一体化管理服务体系。

  在他看来,国家数据集管理服务平台的正式发布,将有效破解高质量数据集建设痛点、打通供需流通堵点,为人工智能应用注入强劲动能。

(文章来源:南方都市报)