红杉中国推出全新AI基准测试工具xbench

财经聚焦 2025-05-26 13:33:06 来源：第一财经作者：网络

AI导读：

红杉中国推出全新AI基准测试工具xbench，采用双轨评估体系和长青评估机制，旨在解决基准测试难以真实反映AI客观能力的问题。该工具将重点关注多模态模型生成商用水平视频、MCP工具可信度、GUI Agents使用动态更新/未训练应用等方向。

类似手机时代厂商发布新机需要“跑个分”，如今AI大模型厂商发布新产品后，同样会通过基准测试（Benchmark）跑分对比。然而，随着基础模型的迅猛发展和AI Agent（智能体）步入规模化应用阶段，基准测试面临严峻挑战：真实反映AI的客观能力愈发困难。

5月26日，红杉中国推出全新AI基准测试工具xbench，该工具由红杉中国携手国内外十余所高校及研究机构，集结数十位博士研究生之力，采用双轨评估体系和长青评估机制，旨在解决行业痛点。

双轨评估体系，即构建多维度测评数据集，同步衡量模型理论能力上限与Agent实际落地价值。长青评估机制，即动态、持续更新的评估方式，有效避免“刷榜”现象，确保评估结果的公正性和准确性。

xbench起源于红杉中国在2022年ChatGPT推出后，对AGI进程和主流模型的内部月评与汇报工具。随着主流模型“刷爆”题目速度加快，基准测试的有效期急剧缩短，xbench应运而生。

此外，相关机构还提出垂直领域Agent评测方法论，构建招聘与营销领域的垂类Agent评测框架。AI Agent的深度搜索能力，是通向AGI的核心能力之一，但评估面临诸多挑战。

AI在长文本处理、多模态、工具使用和推理方面的能力突破，推动了AI Agent的爆炸式增长。有价值的AI Agent评估需与实际任务紧密相关，已成为行业共识。然而，评估结果与AI在现实世界中创造的经济价值仍存在差距。因此，构建特定领域的Agent评估集至关重要。

Agent应用产品版本迭代迅速，外部环境动态变化，测试工具设计需追踪Agent能力的持续增长。红杉推出的xbench-DeepSearch评测集，今年将重点关注多模态模型生成商用水平视频、MCP工具可信度、GUI Agents使用动态更新/未训练应用等方向。

（文章来源：第一财经）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。