AI导读:

2025 CCF中国开源大会在上海召开,聚焦AI时代开源的意义、困境与挑战。专家指出,数据是AI核心,但数据不开放则AI开源非真开源。构建更高维的开放生态是破题关键。

  热度空前的世界人工智能大会(WAIC)余温未散,上海再迎盛会。8月2日至3日,2025 CCF中国开源大会(以下简称“开源大会”)在沪召开。

  现身此次会议的宇树科技创始人王兴兴指出,具身智能要在陌生场景中真正服务于人,需实时生成各类动作。目前,机器人整机硬件已够用,但具身智能大模型仍有巨大缺口,精确数据的获取难度也是当前具身智能机器人升级所面临的难题。

  多位与会专家学者将讨论的热点聚焦于人工智能(AI)时代绕不开的核心话题——开源。

  AI时代,开源有何重要意义?又面临哪些困境与挑战?突围之路又在何方?

AI重塑开源版图:共享协作推动技术普惠

  所谓开源,就是公开代码供所有人查看、使用、修改与再分享,其精神不仅影响软件领域,更延伸至教育、科研、硬件等领域,鼓励通过集体协作解决问题,推动技术普惠。

  AI时代,为何开源至关重要?中国工程院院士郑纬民介绍,AI大模型的生命周期一般包括五个环节,其中,数据获取、预处理与模型训练前三个环节需海量数据与算力,成本高昂,非一般公司能负担。而开源,则有望让小公司也能直接基于大公司的模型,跳过前三个环节,专注于模型微调和推理。

  开源大幅降低了互联网技术的使用成本,让小公司、个人开发者得以参与到技术浪潮中,催生出更多新想法、新服务。上海交通大学校长丁奎岭也指出,开源不仅是当前全球科技创新的技术风尚,更是推动开放发展、共同发展的重要路径。

若数据不开放,AI开源就不是真正的开源

  AI在持续迭代的过程中,数据尤其核心。中国科学院院士鄂维南指出,高质量、高效率的数据基础设施是降低AI落地门槛的关键。

  作为人口大国,数据本是我国的优势。但在此次论坛上,多位专家都提及一个共同的现实困境:一方面,数据作为企业核心资产,价值愈发被重视;另一方面,随着公众数据保护与安全意识的提升,大量数据因“安全考虑”无法公开。

  “所谓的AI开源,若数据不开放,就不是软件开源所定义的开源。”中国科学院院士梅宏解释道,即便大模型参数公开,若外界没有相同的训练数据,也难以复现其能力,更谈不上迭代创新。

从“开源”到“开放”,亟需共建新生态

  面对AI时代的挑战,传统开源模式渐显乏力,破题抓手在哪里?多位专家认为,当务之急是构建一个更高维的“开放”解法。

  开放数据的核心是“数据资源的有条件共享”。开放数据通常附带场景限制,如禁止商业滥用、需脱敏处理,且不允许修改原始数据,目的是释放数据价值以支撑AI训练与科研分析。

  如专家们所说,“开放更具有长远的价值”,其范畴涵盖标准、API、平台等多个维度。AI时代,设计精良的“开放架构”可能比完全公开的源代码更有意义。从“给代码”到“给接口、给标准、给合作框架”,将能让不同创新者在各自擅长的领域便捷接入与贡献,大幅降低协作门槛,构建高效创新生态。

  2025 CCF中国开源大会由中国计算机学会(CCF)主办、上海交通大学和CCF开源发展技术委员会承办。

(文章来源:上观新闻)