豆包大模型发布UI-TARS-1.5,引领AI技术前沿
AI导读:
4月17日,豆包大模型团队发布并开源了UI-TARS-1.5,这是一款基于视觉-语言模型构建的开源多模态智能体。该模型在7个GUI评测基准中取得SOTA表现,并展示了卓越的游戏长时推理能力和开放空间交互能力,为AI技术树立了新标杆。
上证报中国证券网讯 4月17日,豆包大模型团队发布并开源了UI-TARS-1.5,这是一款基于视觉-语言模型构建的开源多模态智能体,旨在虚拟世界中高效执行各类任务,引领AI技术前沿。
豆包大模型团队自豪地宣布,UI-TARS-1.5在7个典型的GUI图形用户界面评测基准中取得了SOTA(State Of The Art)表现,并首次展示了其卓越的游戏长时推理能力和开放空间交互能力,为AI技术树立了新的标杆。
据介绍,UI-TARS-1.5是在团队此前提出的原生智能体方案UI-TARS的基础上,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”,实现了AI决策的智慧升级。
推理能力的优化显著提升了模型在面对未知环境和任务时的泛化能力,这使得UI-TARS-1.5在多项主流评测基准上较此前领域最优模型取得了更加出色的表现,展现了AI技术的无限潜力。
此外,在1.5版本的模型中,豆包大模型团队创新性地以游戏为载体来增强基础模型的推理能力,通过游戏场景的模拟和训练,进一步提升模型的通用性和实用性。
据悉,与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏成为评估和提升未来模型通用能力的理想测试场景。这一创新思路为AI技术的发展开辟了新的道路。(郑维汉)
(文章来源:上海证券报·中国证券网)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

