杨强：预训练大模型数据将枯竭，金融业隐私安全成关键

财经聚焦 2024-12-22 22:22:45 来源：新京报作者：网络

AI导读：

杨强在中国财富管理50人论坛2024年会上指出，预训练大模型数据将枯竭，2028年将成为关键转折点。金融业在使用大模型时，隐私保护成为关键问题，同时强调了大模型发展的新方向和智能体的关键能力。

当前，预训练大模型所需的公开数据已接近枯竭，人类生成数据的速度远不及机器消化数据的速度。12月22日，在中国财富管理50人论坛2024年会“AI浪潮下的金融业应变”主题论坛上，香港科技大学荣休教授、加拿大皇家学院及工程院两院院士杨强发表演讲，指出预训练或将走向终结，新的发展方向仍在探索中。

杨强预测，2028年将成为数据转折点。他展示的数据库存规模与数据消耗规模曲线图显示，两者将于2028年交汇，意味着届时公域数据将无法满足大模型训练需求。随着公域数据的枯竭，私域数据的使用将面临隐私安全挑战。

杨强强调，金融业在使用大模型时，隐私保护尤为关键。企业内部数据的使用必须确保隐私安全。然而，金融界对数据的需求巨大，单个机构的数据远远不够，需要跨机构合并数据，但这一过程中隐私安全成为主要顾虑。

针对大模型发展路径，杨强总结了科学界的探讨：一是建立大量垂域专家智能体，具备学习、沟通能力；二是智能体需具备推理能力，能根据已有知识思考未来；三是智能体应有理解能力和同理心，能理解人类；四是智能体应产生自我意识。

杨强进一步指出，智能体的两个重要能力是推理和组合能力以及人造数据的产生能力。人造数据指智能机器人等创造的数据，通过模拟器训练模型后，再适配到现实场景产生数据，对机构训练模型具有极大价值。

此外，杨强还提到，如何让大模型落地到私域机构，在本地建立小模型，并通过联邦学习和迁移学习等新技术，将大型通用能力赋予小模型，是当前的重要任务。这需要强化大模型的迁移学习能力和联邦学习能力，结合模拟和生成数据的能力，以训练出具有智能的机器人。

（文章来源：新京报，图片已保留）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。