OpenAI发布BrowseComp基准测试,推动AI信息检索能力升级
4月10日,OpenAI宣布开源包含1266个挑战性问题的基准测试BrowseComp,旨在衡量AI智能体在互联网上定位难以查找、相互关联信息的能力。与现有基准测试不同,BrowseComp不再局限于衡量模型检索基本孤立事实的能力,有望为AI技术提供更全面的评估标准。...
4月10日,OpenAI宣布开源包含1266个挑战性问题的基准测试BrowseComp,旨在衡量AI智能体在互联网上定位难以查找、相互关联信息的能力。与现有基准测试不同,BrowseComp不再局限于衡量模型检索基本孤立事实的能力,有望为AI技术提供更全面的评估标准。...