AI导读:

网易有道发布视频,展示6位清华姚班学生与AI在高考压轴题上的较量。AI答题速度快且准确,展现了大模型理科能力的显著提升。多家科技巨头纷纷推出数学推理系统,刷新纪录,在线教育市场的AI贡献率预计将大幅提升。

去年,“9.11和9.9谁大?”这道数学题难倒了不少大模型。今年,大模型的理科能力有了怎样的提升?

今日,网易有道发布了一则视频,展示了6位清华姚班学生与AI在高考压轴题上的较量。姚班,由图灵奖得主姚期智院士创办,汇聚了众多数学、物理、信息学竞赛的佼佼者。

比赛中,姚班学生与AI分别挑战了2023年高考数学全国一卷压轴题和2021年高考物理江苏卷压轴题。姚班学生在10分钟内完成作答,仅1人出错;而AI答疑笔则在输入确认后几秒内便输出解题步骤,并正确解答。

对于AI的解题表现,一位姚班学生表示,AI的解题思路与其相似,但步骤更加清晰,有助于学生理解。

回顾去年,有机构让包括GPT-4o、豆包、文心4.0在内的9家大模型尝试河南高考卷,结果仅4家大模型文科分数达到河南一本线,理科则全军覆没。

有道相关负责人表示,今年AI进展迅速,特别是Deepseek-R1的推出,使得大模型推理能力和交互能力大幅提升,非常适合教育场景,能够满足个性化教学和答疑的需求,提供高质量的指导和答疑。因此,选择与高考顶尖学霸进行同题测试,直观展示AI大模型能力的提升。

题型选择上,主要考虑难度和认知度。负责人称,“高考压轴题难度大,认知度高,易于引起关注,直观展示效果。”

据悉,有道还进行了北京最新高考二模的挑战,AI答题后由老师批改,得分697分(总分750分),达到“清北”水平。这一成绩较去年AI集体做高考题时理科的惨淡表现有了显著提升。

过去一年,多家大模型公司将数学能力作为核心竞争力。OpenAI、谷歌等科技巨头纷纷推出数学推理系统,刷新了多项纪录。同时,阿里巴巴发布的通义千问模型Qwen3也在奥数测评中取得了优异成绩。

艾媒咨询发布的报告显示,2023至2027年,在线教育市场的AI贡献率预计将大幅提升。

(文章来源:第一财经