中国电子信息博览会聚焦AI数据驱动发展
AI导读:
第十三届中国电子信息博览会在深圳举行,中国电子首席科学家蒋国飞发表演讲,强调高质量数据集已成为AI发展的核心驱动力。数据基础设施建设与数据处理技术创新对破解AI行业应用落地瓶颈至关重要,形成数据流动-处理建设-智能应用的完整闭环才能释放数据要素价值。
4月9日至11日,第十三届中国电子信息博览会(简称“电博会”)在深圳会展中心举行。此次博览会聚焦AI数据驱动发展。
中国电子首席科学家蒋国飞在会上发表主题演讲,系统阐述了数据如何驱动人工智能发展。他强调,在算力与模型能力逐步拉平的竞争格局下,高质量数据集已成为AI发展的核心驱动力。数据基础设施建设与数据处理技术创新,对破解AI行业应用落地瓶颈至关重要。
数据流通基础设施助力数据开放共享
蒋国飞谈到,人工智能发展要素可归纳为算力、数据、模型与应用四大维度。从长期竞争来看,芯片供给能力与模型开源趋势将逐渐消除技术壁垒,数据作为具有强知识产权属性的核心要素,正成为AI竞争的关键。尤其是生成式AI的发展,对大规模高质量数据产生强烈需求。
他以历史经验为例,2009年美国通过构建大规模图像数据库,推动了从早期深度学习到当前大模型的技术演进。
在Scaling Law规则下,AI模型参数规模已突破2万亿级,理论上需要同等量级的有效数据支撑。蒋国飞强调,数据规模与质量直接决定大模型的学习精确度与泛化能力。当前大模型训练已消耗50万亿token,预计2025年将触及人类数据总量边界。
针对AI应用面临的数据困境,蒋国飞指出,互联网领域的数据积累催生了豆包、元宝、Deepseek等大模型发展,但进入垂直行业时,数据分散化、碎片化、质量不足等问题成为主要瓶颈。因此,建设数据流通基础设施,加速数据开放共享,归集数据,对推动人工智能发展至关重要。
近两年,国家高度重视数据流通基础设施建设,提出了数场、数联网、数据元件、数据空间、隐私计算和区块链六条技术路线。中国电子作为“数据元件”概念提出者,正在北京、西安等地推进国家数据基础设施试点。
高质量数据集成AI应用发展重点
数据技术归集后,更大的挑战在于如何加工高质量数据集。蒋国飞定义高质量数据集为“将分散、碎片、杂乱的数据加工为高价值、高密度、标准化的数据集合”,涵盖数据归集、清洗、标注、评测等多个环节。
在技术层面,传统数据标注正从劳动密集型向知识密集型转型。以医疗影像标注为例,只有医生能标注,难以适应AI时代对数据的要求。AI学习的本质是在高维空间学习复杂曲线,可通过任务分解技术将复杂标注拆分为普通人可完成的子任务。
真实数据的稀缺性导致模型训练难以覆盖各个场景。数据定义存在认知边界,数据分布不均匀会导致大模型在某些区域出现认知盲区。蒋国飞提出,数据合成技术可通过行业知识引导实现多样化模拟,填补数据分布盲区。
他分享了中国电子在交通物流、建筑供应链、农业等领域的实践案例,如通过处理千万级行业数据构建智能问答模型,开发供应链匹配系统,利用1TB农业数据训练图像识别模型。
蒋国飞强调,行业数据处理必须形成“数据流动-处理建设-智能应用”的完整闭环,方能释放数据要素价值。
(文章来源:21世纪经济报道)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

