AI导读:

科学地平线平台正式上线,旨在评估大模型在科研领域的应用能力以及科学数据质量,为科研人员提供可靠参考。平台还推出了大模型科学领域能力测试榜单,以及高质量科学数据推荐榜单,助力科研创新。

  人工智能正在科研方面展现出巨大潜力。然而,随着其应用逐步加深,一些问题也浮出水面:大模型解决学科领域问题的效能如何?科学数据供给的质量如何?是否有“裁判员”对大模型科研能力进行评价?这些疑问正被一一解答。

  近日,由中国科学院计算机网络信息中心牵头建设的科学地平线(SciHorizon)平台正式上线。作为国际首个聚焦“数据+模型”角度、面向人工智能驱动科学研究的综合评价平台,科学地平线旨在评估大模型在科研领域的应用能力以及科学数据质量,为科研人员使用大模型高效解决科学问题提供可靠参考。

  在科学地平线网站的大模型科学领域能力测试榜单中,用户可根据不同学科浏览对应大模型排名。例如,在全学科排名中,Deepseek-R1以71.68的综合评分暂列第一。这一平台的推出,标志着人工智能科研评价体系的进一步完善。

  “考虑到一种大模型并非在所有学科领域都能展现出非凡能力,我们对学科类型进行分类,包括全学科、数学、物理学、化学、生命科学、地球与空间科学6种。”中国科学院计算机网络信息中心研究员祝恒书介绍,在不同学科下,依据知识、理解、推理、价值观、多模态这5项评价指标,大模型的表现能力会被重新排序。科研人员能据此迅速找到适配度高且综合能力更强的大模型辅助科学研究。

  祝恒书补充说,针对大模型幻觉问题,团队正在构建能将科学价值观纳入评价的指标体系,推动大模型在回答科学问题时遵守科学伦理和道德规范,实现价值观对齐,确保科研诚信。

  高质量数据是大模型的“成长燃料”。数据越丰富,大模型能“学到”的知识越多,能力也就越强。在科学地平线网站的高质量科学数据推荐榜单页面上,分别列出了地球科学、生命科学、材料科学领域排名前十的数据集,为科研人员提供了宝贵的资源。

  祝恒书介绍,为确保评价体系的合理性和公平性,研究团队共收集国内高校、科研院所等上百家机构发布的数据集,并从规范性、可用性、可解释性、合规性4个维度对数据集作出评价。每一维度下,还设置了不同子指标,确保科学数据的质量。

  科学地平线平台的上线,不仅为科研人员提供了大模型科研能力的评价标准,也为高质量科学数据的推广和应用提供了有力支持。未来,该平台将继续完善评价体系,助力科研创新。

  不少专家预测,智能体将在科学研究中释放巨大潜力。祝恒书介绍,团队目前正开展面向科学领域的多智能体研究工作,并已在人工智能数字细胞方向取得阶段性进展,未来还将部署建设相关评测系统,为科研人员提供更为全面、科学的支持。

(文章来源:科技日报)