MiniMax开源首个面向 Coding Agent 的系统性评测集
MiniMax正式开源首个面向 Coding Agent 的系统性评测集OctoCodingBench,评测结果显示部分开源模型在过程合规指标上已快速逼近甚至超越部分闭源模型,反映出在 Agent 时代,“数据与评测范式”的重要性正在上升为新的竞争要素。...
上海发布“2025金融大模型评测体系”
上海发布了“2025金融大模型评测体系”,旨在助力上海建设具有全球影响力的金融科技中心。该体系在标准引领、数据驱动等四大维度实现全面升级,并发布了《金融大模型应用评测报告》与《金融大模型评测数据集》。...
物联网智能体基准评测体系发布
中国信通院发布《物联网智能体基准评测体系》,涵盖通用基准、技术能力、应用能力三大维度,共43项指标。提出基础智能、辅助智能、自主智能、卓越智能四级分类体系。未来将持续完善该体系,向更多领域扩展。...


