优秀财经网优秀的人都在用的资讯工具

财经关键词关于我们联系我们

全球指数

首页 > 财经 > 财经聚焦

OpenAI发布o3及o3-mini模型，性能惊艳引关注

财经聚焦 2024-12-21 09:21:16 来源：每日经济新闻作者：网络

AI导读：

OpenAI发布o3及o3-mini模型，在软件工程、编写代码、竞赛数学等方面表现出色，o3在通用人工智能奋斗目标上取得突破，计划明年初正式发布。

当地时间12月20日周五，OpenAI在线上新品发布活动的最后一日，宣布了备受瞩目的“压轴大作”——o1的下一代模型o3，并同时推出两个版本：正式的o3和精简版o3-mini。

OpenAI的CEO Sam Altman在直播中透露，本次12天的活动首尾呼应，首日推出了正式版o1，而最后一天则带来了全新的o3模型。他解释称，新模型命名为o3而非o2，是为了避免与英国电信服务商O2的命名冲突。

Altman在直播中赞誉o3为“一个非常、非常聪明的模型”。OpenAI的评估结果显示，o3在软件工程、编写代码、竞赛数学以及掌握人类博士级别的自然科学知识能力方面，均远超其前代o1。特别是在通用人工智能（AGI）的奋斗目标上，o3取得了突破性的进展，测试成绩达到了类人水平。

回顾今年9月，OpenAI发布o1预览版时，曾宣称o1是首个具备真正通用推理能力的大模型。在测试化学、物理和生物学专业知识的基准GPQA-diamond上，o1的表现全面超越了人类博士专家。

在12月20日的直播中，OpenAI展示了o3的测评表现。在软件工程能力测评中，o3的准确率高达71.7%，远超o1的48.9%和o1预览版的41.3%。在竞争性编程网站Codeforces的测评中，o3的Elo评分达到2727，远高于o1的1891和o1预览版的1258。此外，在AIME数学竞赛的题目测试中，o3的准确率高达96.7%，仅错了一道题，相当于顶级数学家的水平。

在测试化学、物理和生物学专业知识的基准GPQA-diamond上，o3的准确率也达到了87.7%，超过了o1和o1预览版。而在AGI评估中，o3的最低成绩为75.7%，最高成绩更是达到了87.5%，超过了标志着达到人类水平的门槛85%。

OpenAI还展示了o3的推理能力已更加接近实现AGI。创始ARC-AGI标准的前谷歌高级工程师、AI研究员Franois Chollet表示，OpenAI这些推理模型在AGI测试中取得进步是“稳健的”，并认为这代表了让AI适应新任务的重大突破。

此外，o3Mini模型在性能与成本平衡方面表现出色，能够以较低的成本提供高效的服务。在编码评估方面，o3Mini模型展现出了出色的性能提升，甚至在中位思考时间下，其性能优于o1模型。在数学能力测试中，o3Mini模型也表现出色，实现了接近即时响应的效果。

在现场演示中，o3Mini模型的强大功能得到了直观展示，例如成功启动本地服务器并生成包含文本框的用户界面，以及迅速处理编码请求并自动执行任务等。

尽管o3的测评表现惊艳，但OpenAI计划明年初才正式发布这些新的o3模型。从12月20日开始，OpenAI允许安全研究人员注册访问o3和o3-mini的预览。

（文章来源：每日经济新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。

相关文章

热门文章

1

民营银行存款降息潮在延续

看了这篇文章的还看了

民营银行存款降息潮在延续

微信扫一扫