OpenAI发布o3及o3-mini模型,性能惊艳引关注
AI导读:
OpenAI发布o3及o3-mini模型,在软件工程、编写代码、竞赛数学等方面表现出色,o3在通用人工智能奋斗目标上取得突破,计划明年初正式发布。
当地时间12月20日周五,OpenAI在线上新品发布活动的最后一日,宣布了备受瞩目的“压轴大作”——o1的下一代模型o3,并同时推出两个版本:正式的o3和精简版o3-mini。
OpenAI的CEO Sam Altman在直播中透露,本次12天的活动首尾呼应,首日推出了正式版o1,而最后一天则带来了全新的o3模型。他解释称,新模型命名为o3而非o2,是为了避免与英国电信服务商O2的命名冲突。
Altman在直播中赞誉o3为“一个非常、非常聪明的模型”。OpenAI的评估结果显示,o3在软件工程、编写代码、竞赛数学以及掌握人类博士级别的自然科学知识能力方面,均远超其前代o1。特别是在通用人工智能(AGI)的奋斗目标上,o3取得了突破性的进展,测试成绩达到了类人水平。
回顾今年9月,OpenAI发布o1预览版时,曾宣称o1是首个具备真正通用推理能力的大模型。在测试化学、物理和生物学专业知识的基准GPQA-diamond上,o1的表现全面超越了人类博士专家。
在12月20日的直播中,OpenAI展示了o3的测评表现。在软件工程能力测评中,o3的准确率高达71.7%,远超o1的48.9%和o1预览版的41.3%。在竞争性编程网站Codeforces的测评中,o3的Elo评分达到2727,远高于o1的1891和o1预览版的1258。此外,在AIME数学竞赛的题目测试中,o3的准确率高达96.7%,仅错了一道题,相当于顶级数学家的水平。
在测试化学、物理和生物学专业知识的基准GPQA-diamond上,o3的准确率也达到了87.7%,超过了o1和o1预览版。而在AGI评估中,o3的最低成绩为75.7%,最高成绩更是达到了87.5%,超过了标志着达到人类水平的门槛85%。

OpenAI还展示了o3的推理能力已更加接近实现AGI。创始ARC-AGI标准的前谷歌高级工程师、AI研究员Franois Chollet表示,OpenAI这些推理模型在AGI测试中取得进步是“稳健的”,并认为这代表了让AI适应新任务的重大突破。
此外,o3Mini模型在性能与成本平衡方面表现出色,能够以较低的成本提供高效的服务。在编码评估方面,o3Mini模型展现出了出色的性能提升,甚至在中位思考时间下,其性能优于o1模型。在数学能力测试中,o3Mini模型也表现出色,实现了接近即时响应的效果。



在现场演示中,o3Mini模型的强大功能得到了直观展示,例如成功启动本地服务器并生成包含文本框的用户界面,以及迅速处理编码请求并自动执行任务等。
尽管o3的测评表现惊艳,但OpenAI计划明年初才正式发布这些新的o3模型。从12月20日开始,OpenAI允许安全研究人员注册访问o3和o3-mini的预览。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

