红杉中国推出全新AI基准测试工具xbench
红杉中国推出全新AI基准测试工具xbench,采用双轨评估体系和长青评估机制,旨在解决基准测试难以真实反映AI客观能力的问题。该工具将重点关注多模态模型生成商用水平视频、MCP工具可信度、GUI Agents使用动态更新/未训练应用等方向。...
红杉中国推出全新AI基准测试工具xbench,采用双轨评估体系和长青评估机制,旨在解决基准测试难以真实反映AI客观能力的问题。该工具将重点关注多模态模型生成商用水平视频、MCP工具可信度、GUI Agents使用动态更新/未训练应用等方向。...