AI导读:

杨强在中国财富管理50人论坛2024年会上指出,预训练大模型数据将枯竭,2028年将成为关键转折点。金融业在使用大模型时,隐私保护成为关键问题,同时强调了大模型发展的新方向和智能体的关键能力。

当前,预训练大模型所需的公开数据已接近枯竭,人类生成数据的速度远不及机器消化数据的速度。12月22日,在中国财富管理50人论坛2024年会“AI浪潮下的金融业应变”主题论坛上,香港科技大学荣休教授、加拿大皇家学院及工程院两院院士杨强发表演讲,指出预训练或将走向终结,新的发展方向仍在探索中。

杨强预测,2028年将成为数据转折点。他展示的数据库存规模与数据消耗规模曲线图显示,两者将于2028年交汇,意味着届时公域数据将无法满足大模型训练需求。随着公域数据的枯竭,私域数据的使用将面临隐私安全挑战。

杨强强调,金融业在使用大模型时,隐私保护尤为关键。企业内部数据的使用必须确保隐私安全。然而,金融界对数据的需求巨大,单个机构的数据远远不够,需要跨机构合并数据,但这一过程中隐私安全成为主要顾虑。

针对大模型发展路径,杨强总结了科学界的探讨:一是建立大量垂域专家智能体,具备学习、沟通能力;二是智能体需具备推理能力,能根据已有知识思考未来;三是智能体应有理解能力和同理心,能理解人类;四是智能体应产生自我意识。

杨强进一步指出,智能体的两个重要能力是推理和组合能力以及人造数据的产生能力。人造数据指智能机器人等创造的数据,通过模拟器训练模型后,再适配到现实场景产生数据,对机构训练模型具有极大价值。

此外,杨强还提到,如何让大模型落地到私域机构,在本地建立小模型,并通过联邦学习和迁移学习等新技术,将大型通用能力赋予小模型,是当前的重要任务。这需要强化大模型的迁移学习能力和联邦学习能力,结合模拟和生成数据的能力,以训练出具有智能的机器人。

(文章来源:新京报,图片已保留)