杨强:预训练大模型数据将枯竭,金融业隐私安全成关键
AI导读:
杨强在中国财富管理50人论坛2024年会上指出,预训练大模型数据将枯竭,2028年将成为关键转折点。金融业在使用大模型时,隐私保护成为关键问题,同时强调了大模型发展的新方向和智能体的关键能力。
当前,预训练大模型所需的公开数据已接近枯竭,人类生成数据的速度远不及机器消化数据的速度。12月22日,在中国财富管理50人论坛2024年会“AI浪潮下的金融业应变”主题论坛上,香港科技大学荣休教授、加拿大皇家学院及工程院两院院士杨强发表演讲,指出预训练或将走向终结,新的发展方向仍在探索中。
杨强预测,2028年将成为数据转折点。他展示的数据库存规模与数据消耗规模曲线图显示,两者将于2028年交汇,意味着届时公域数据将无法满足大模型训练需求。随着公域数据的枯竭,私域数据的使用将面临隐私安全挑战。
杨强强调,金融业在使用大模型时,隐私保护尤为关键。企业内部数据的使用必须确保隐私安全。然而,金融界对数据的需求巨大,单个机构的数据远远不够,需要跨机构合并数据,但这一过程中隐私安全成为主要顾虑。
针对大模型发展路径,杨强总结了科学界的探讨:一是建立大量垂域专家智能体,具备学习、沟通能力;二是智能体需具备推理能力,能根据已有知识思考未来;三是智能体应有理解能力和同理心,能理解人类;四是智能体应产生自我意识。
杨强进一步指出,智能体的两个重要能力是推理和组合能力以及人造数据的产生能力。人造数据指智能机器人等创造的数据,通过模拟器训练模型后,再适配到现实场景产生数据,对机构训练模型具有极大价值。
此外,杨强还提到,如何让大模型落地到私域机构,在本地建立小模型,并通过联邦学习和迁移学习等新技术,将大型通用能力赋予小模型,是当前的重要任务。这需要强化大模型的迁移学习能力和联邦学习能力,结合模拟和生成数据的能力,以训练出具有智能的机器人。
(文章来源:新京报,图片已保留)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

