AI训练新趋势：合成数据崛起与风险并存

国内财经 2025-01-22 07:43:44 来源：科技日报作者：网络

AI导读：

本文探讨了AI训练中合成数据的崛起及其优势，包括解决真实数据稀缺问题、提高训练效率等。同时，也分析了过度依赖合成数据可能带来的风险，如AI模型准确性和性能下降等。强调了谨慎使用合成数据的重要性。

近期，人工智能（AI）领域的创新引发了广泛关注。人工智能（AI）初创公司xAI的创始人埃隆·马斯克发表言论称：“在AI训练中，我们已接近耗尽人类知识的累积总和。”这一观点揭示了AI行业面临的严峻挑战。此前的研究同样指出，人类生成的真实数据将在未来2至8年内面临枯竭。面对真实数据的稀缺性，科技行业正积极寻求解决方案，合成数据因此成为了满足AI需求的关键。

澳大利亚知名科技网站“对话”本月早些时候的报道指出，尽管合成数据具有诸多优势，但过度依赖可能削弱AI的准确性和可靠性，引发了业界对于合成数据使用的深度思考。

合成数据：应运而生的解决方案

长久以来，科技公司主要依赖真实数据来构建、训练和优化AI模型。这些数据，如文本、视频和图像，来源于人类的各类活动，通过调查、实验、观察或网络挖掘等方式收集。真实数据因其反映真实事件及其背景而极具价值，然而，其并非无可挑剔。数据中的拼写错误、不一致性或偏见等问题，可能导致AI模型产生偏差，例如，生成仅展示男性或白人形象的图像。

随着AI需求的不断增长，真实数据的供应却日益紧张。美国开放人工智能研究中心的联合创始人伊利亚·苏茨克维尔在去年的机器学习会议上警告称，AI行业已触及“数据峰值”，训练数据的枯竭危机迫在眉睫。有研究预测，到2026年，ChatGPT等大型语言模型的训练将耗尽互联网上的所有可用文本数据。

在此背景下，合成数据应运而生。合成数据是通过算法生成的，模仿真实世界情况的数据，它并非来自现实世界，而是在数字世界中创造的。作为真实数据的替代品，合成数据被广泛应用于AI模型的训练、测试和验证中。

合成数据为AI训练提供了一种经济、高效且快速的解决方案。它有效解决了使用真实数据时涉及的隐私和道德问题，尤其是处理个人健康数据等敏感信息时。更重要的是，与真实数据相比，合成数据在理论上具有无限供应的潜力。高德纳公司预测，到2024年，AI及分析项目使用的数据中，约60%将是合成数据；到2030年，这一比例将进一步上升。

科技巨头争相采用

众多科技巨头和初创企业已开始广泛采用合成数据来训练AI模型。微软、元宇宙平台公司以及Anthropic等企业均在这一领域取得了显著进展。例如，微软的开源AI模型“Phi-4”便是结合真实数据和合成数据进行训练的；谷歌的“Gemma”模型也采用了类似策略。Anthropic公司利用其部分合成数据，开发出了性能优异的AI系统“Claude 3.5 Sonnet”。苹果自研的AI系统Apple Intelligence在预训练阶段也大量使用了合成数据。

随着科技公司对合成数据需求的不断增长，生产合成数据的工具也应运而生。英伟达发布的3D仿真数据生成引擎Omniverse Replicator能够生成用于自动驾驶汽车和机器人训练的合成数据。此外，英伟达还开源了Nemotron-4340b系列模型，开发者可利用该模型生成用于训练大型语言模型的合成数据，以满足医疗保健、金融、制造和零售等行业的需求。亚马逊云科技推出的Amazon SageMaker Ground Truth也能为用户生成数十万张自动标记的合成图像。

元宇宙平台公司推出的开源大模型Llama 3.3更是大幅降低了生成合成数据的成本，进一步推动了合成数据在AI训练中的应用。

过度依赖的风险与挑战

尽管合成数据为AI训练提供了重要支持，但其过度依赖也带来了潜在风险。当AI模型过于依赖合成数据时，可能会产生更多“幻觉”，即编造看似合理但实际上并不存在的信息。这可能导致AI模型的质量和性能大幅下降，甚至无法使用。例如，如果某个AI模型生成的数据中存在拼写错误，利用这些错误数据训练其他模型将导致更大的错误传播。

此外，合成数据还可能存在过于简单化的风险。由于缺乏真实数据集所蕴含的细节和多样性，可能导致在其上训练的AI模型的输出也过于简单，缺乏实用性。为解决这些问题，国际标准化组织正着手创建强大的系统来跟踪和验证AI训练数据。同时，AI系统可以配备元数据追踪功能，以便对合成数据进行溯源。此外，人类也需要在AI模型的整个训练过程中对合成数据进行监督，以确保其高质量且符合道德标准。

综上所述，合成数据在克服AI训练数据短缺方面发挥着越来越重要的作用。然而，对其使用必须保持谨慎态度，尽量减少错误，确保其作为真实数据的可靠补充，从而保障AI系统的准确性和可信度。未来，随着技术的不断进步和应用场景的拓展，合成数据将在AI领域发挥更加重要的作用。

（文章来源：科技日报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。