AI导读:

上海财经大学前沿人工智能实验室推出Fin-Eval 6.0评估基准,全面评估大型语言模型在金融领域专业能力与安全性。该基准包含六大核心模块,超16,000道题目,旨在满足金融行业对高标准、专业化AI评估工具的迫切需求,推动中国金融AI发展。

近日,上海财经大学前沿人工智能实验室宣布正式推出Fin-Eval 6.0评估基准。这是一个专为全面评估大型语言模型(LLMs)在金融领域的专业能力与安全性而构建的开创性基准数据集。该基准基于广受认可的FinEval评估集升级,创新性地加入金融严谨性和金融多模态两大维度,总题量超16,000道,旨在满足金融行业对高标准、专业化AI评估工具的迫切需求。

Fin-Eval 6.0的核心亮点涵盖:全面的领域覆盖,基准测试包含金融学术知识、行业理解、安全认知等六大核心模块;海量高质量试题,超过16,000道题目深度模拟真实金融场景,检验大模型的综合应用能力;聚焦前沿,创新性地引入“金融多模态能力”、“金融严谨性测试”评估维度。

六维评估矩阵覆盖金融全场景,确保评估广度与深度。金融学术知识模块覆盖金融学、经济学等多个细分学科;金融行业理解模块聚焦投资研究、风险管理等实际业务场景;金融安全认知模块重点评估模型的安全性;金融智能体应用模块评估模型在模拟金融助手时的能力;金融多模态能力模块考察模型对金融图表的理解;金融严谨性测试模块评估模型输出的严谨性和真实性。

Fin-Eval 6.0的推出,为解决大型语言模型在金融行业的安全与复杂任务处理能力挑战提供了坚实基础,推动中国金融AI迈向新高度。该基准为金融AI的学术研究和技术发展设立新标杆,也为金融机构提供风险评估和模型选型依据。

更重要的是,Fin-Eval 6.0的推广有望催生金融AI评估与优化研究社区及产业生态,提升大模型在金融领域的整体水平,推动更安全、可靠、公平的AI技术在金融领域落地,助力金融行业数字化转型与社会经济高质量发展。

上海财经大学校长刘元春表示,该评测体系具有双重价值,为金融监管部门制定技术治理框架提供依据,为商业机构优化模型开发指明方向。测评团队负责人张立文指出,Fin-Eval 6.0的发布标志着金融AI评估领域迈出关键一步,旨在构建更安全、高效且可靠的金融AI系统。

未来,上海财经大学将更关注金融领域的安全合规、能力建设与智能体评测等维度,建设体系化评测框架,依托金融学科建设优势,构建具有行业代表性和复杂度的金融基准测试集,动态监测和量化分析大模型在金融领域的能力与知识边界。同时,金融智能体评测标准也在筹备建设中。(CIS)

(文章来源:上海证券报·中国证券网)