红杉中国发布AI基准测试工具xbench,引领AI投资新变革
AI导读:
红杉中国推出全新AI基准测试工具xbench,旨在解决现有基准测试难以真实反映AI能力的问题。该工具采用双轨评估体系,包含科学问题解答与中文互联网深度搜索两个核心评估集。此举凸显投资机构全面拥抱AI的决心,为AI投资领域带来新变革。
5月26日,红杉中国推出了全新的AI基准测试工具xbench,并发布了详细论文。这一突破性进展标志着投资机构首次主导发布基准测试,为当下火热的AI投资领域再添一把火,受到业内广泛关注。自2022年ChatGPT引爆通用人工智能(AGI)赛道后,AI Benchmark逐渐成为评估基础大模型和AI Agent能力的通用工具。然而,随着模型快速发展和应用规模化,现有基准测试难以真实反映AI能力。
基于此,红杉中国推出的xbench采用双轨评估体系,旨在同时追踪模型理论能力上限与实际落地价值。该体系分为两条主线:评估AI系统能力上限与技术边界,以及量化AI系统在真实场景的效用价值。此外,xbench采用长青评估机制,确保测试内容的时效性和相关性。红杉中国将定期测评市场主流Agent产品,预测下一个Agent应用的技术—市场契合点。
首期发布的xbench包含科学问题解答与中文互联网深度搜索两个核心评估集,并对主要产品进行综合排名。同时,提出了垂直领域智能体的评测方法论。xbench欢迎社区共建,为开发者、企业和研究者提供公允的评估环境和可复现的评价结果。
业内人士分析,红杉中国的这一举动凸显出投资机构全面拥抱AI的决心。过去两年多,xbench一直是红杉中国内部使用的评估工具,此次开源将推动AI技术上限的探求和商业化落地,为行业带来变革。此外,AI智能体受到国内机构关注,大模型正向产业模型转变,AI编程、AI智能体和AI硬件将成为今年爆发的应用点。
中信建投研报称,近期大厂密集更新Agent产品,国内外厂商同步跟进。随着Agent产品加速落地,AI产业持续向上,商业化落地节奏有望加快。这利好有数据、客户、场景的软件企业,以及一体机、超融合和B端服务外包企业。
(文章来源:创业资本汇)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

