AI导读:

红杉中国推出全新AI基准测试工具xbench,采用双轨评估体系和长青评估机制,旨在解决基准测试难以真实反映AI客观能力的问题。该工具将重点关注多模态模型生成商用水平视频、MCP工具可信度、GUI Agents使用动态更新/未训练应用等方向。

类似手机时代厂商发布新机需要“跑个分”,如今AI大模型厂商发布新产品后,同样会通过基准测试(Benchmark)跑分对比。然而,随着基础模型的迅猛发展和AI Agent(智能体)步入规模化应用阶段,基准测试面临严峻挑战:真实反映AI的客观能力愈发困难。

5月26日,红杉中国推出全新AI基准测试工具xbench,该工具由红杉中国携手国内外十余所高校及研究机构,集结数十位博士研究生之力,采用双轨评估体系和长青评估机制,旨在解决行业痛点。

双轨评估体系,即构建多维度测评数据集,同步衡量模型理论能力上限与Agent实际落地价值。长青评估机制,即动态、持续更新的评估方式,有效避免“刷榜”现象,确保评估结果的公正性和准确性。

xbench起源于红杉中国在2022年ChatGPT推出后,对AGI进程和主流模型的内部月评与汇报工具。随着主流模型“刷爆”题目速度加快,基准测试的有效期急剧缩短,xbench应运而生。

此外,相关机构还提出垂直领域Agent评测方法论,构建招聘与营销领域的垂类Agent评测框架。AI Agent的深度搜索能力,是通向AGI的核心能力之一,但评估面临诸多挑战。

AI在长文本处理、多模态、工具使用和推理方面的能力突破,推动了AI Agent的爆炸式增长。有价值的AI Agent评估需与实际任务紧密相关,已成为行业共识。然而,评估结果与AI在现实世界中创造的经济价值仍存在差距。因此,构建特定领域的Agent评估集至关重要。

Agent应用产品版本迭代迅速,外部环境动态变化,测试工具设计需追踪Agent能力的持续增长。红杉推出的xbench-DeepSearch评测集,今年将重点关注多模态模型生成商用水平视频、MCP工具可信度、GUI Agents使用动态更新/未训练应用等方向。

(文章来源:第一财经