红杉中国发布AI基准测试工具xbench，引领AI投资新变革

财经聚焦 2025-05-26 21:32:09 来源：创业资本汇作者：网络

AI导读：

红杉中国推出全新AI基准测试工具xbench，旨在解决现有基准测试难以真实反映AI能力的问题。该工具采用双轨评估体系，包含科学问题解答与中文互联网深度搜索两个核心评估集。此举凸显投资机构全面拥抱AI的决心，为AI投资领域带来新变革。

5月26日，红杉中国推出了全新的AI基准测试工具xbench，并发布了详细论文。这一突破性进展标志着投资机构首次主导发布基准测试，为当下火热的AI投资领域再添一把火，受到业内广泛关注。自2022年ChatGPT引爆通用人工智能（AGI）赛道后，AI Benchmark逐渐成为评估基础大模型和AI Agent能力的通用工具。然而，随着模型快速发展和应用规模化，现有基准测试难以真实反映AI能力。

基于此，红杉中国推出的xbench采用双轨评估体系，旨在同时追踪模型理论能力上限与实际落地价值。该体系分为两条主线：评估AI系统能力上限与技术边界，以及量化AI系统在真实场景的效用价值。此外，xbench采用长青评估机制，确保测试内容的时效性和相关性。红杉中国将定期测评市场主流Agent产品，预测下一个Agent应用的技术—市场契合点。

首期发布的xbench包含科学问题解答与中文互联网深度搜索两个核心评估集，并对主要产品进行综合排名。同时，提出了垂直领域智能体的评测方法论。xbench欢迎社区共建，为开发者、企业和研究者提供公允的评估环境和可复现的评价结果。

业内人士分析，红杉中国的这一举动凸显出投资机构全面拥抱AI的决心。过去两年多，xbench一直是红杉中国内部使用的评估工具，此次开源将推动AI技术上限的探求和商业化落地，为行业带来变革。此外，AI智能体受到国内机构关注，大模型正向产业模型转变，AI编程、AI智能体和AI硬件将成为今年爆发的应用点。

中信建投研报称，近期大厂密集更新Agent产品，国内外厂商同步跟进。随着Agent产品加速落地，AI产业持续向上，商业化落地节奏有望加快。这利好有数据、客户、场景的软件企业，以及一体机、超融合和B端服务外包企业。

（文章来源：创业资本汇）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。