OpenAI发布GDPval测试,AI模型工作表现接近行业专家
当地时间9月25日,OpenAI发布GDPval基准测试,比较其AI模型与各行业专业人士工作表现。GPT-5和Claude Opus 4.1模型已接近行业专家水平,但GDPval目前仅涵盖有限任务。OpenAI计划未来开发更全面测试。...
当地时间9月25日,OpenAI发布GDPval基准测试,比较其AI模型与各行业专业人士工作表现。GPT-5和Claude Opus 4.1模型已接近行业专家水平,但GDPval目前仅涵盖有限任务。OpenAI计划未来开发更全面测试。...