美团开源LongCat-Flash-Thinking,AI大模型领域再突破
AI导读:
9月22日,美团旗下龙猫LongCat团队宣布开源高效推理模型LongCat-Flash-Thinking,该模型在逻辑、数学、代码及智能体任务性能上显著提升,达到全球开源模型SOTA水平,成为国内首个具备深度思考与工具调用能力的大语言模型。
9月22日,美团(03690.HK)旗下龙猫LongCat团队宣布开源高效推理模型LongCat-Flash-Thinking,这一AI大模型领域的创新(AI大模型关键词1)引发广泛关注。目前,该模型已在HuggingFace、Github全面开源。
这是继9月1日发布5600亿参数模型LongCat-Flash-Chat后,美团在AI大模型领域的又一新动作,展现了其在人工智能技术上的持续投入(人工智能关键词2)。
LongCat-Flash-Thinking是美团基于LongCat-Flash-Chat的升级版本,在保持极致推理速度的同时,显著提升了逻辑、数学、代码及智能体任务的性能,并在多个领域的推理任务中,达到全球开源模型SOTA(State of the Art,领域内先进水平),标志着美团在AI模型优化上的重大突破(模型优化关键词3)。
美团称,LongCat-Flash-Thinking不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备“深度思考+工具调用”与“非形式化+形式化”推理能力相结合的大语言模型,引领了AI技术的新潮流(技术新潮流关键词4)。
该模型采用领域并行强化学习训练方法(Domain-Parallel RL Training),通过多领域解耦优化策略实现帕累托最优(Pareto-Optimal),并依托异步弹性共卡系统(DORA)实现训练效率三倍提速,展现了高效训练的技术实力。

基于AIME25实测数据,LongCat-Flash-Thinking在该框架下展现出更高效的智能体工具调用(Agentic Tool Use)能力,在确保90%准确率的前提下,相较于不使用工具调用节省了64.5%的Tokens(从19653到6965),显著优化了推理过程的资源利用率,体现了其在实际应用中的高效性。
值得注意的是,在编程领域,LongCat-Flash-Thinking展现出开源模型SOTA与其综合实力。在LiveCodeBench上,以79.4分显著超越参与评估的开源模型,并与顶级闭源模型GPT-5表现相当;在OJBench基准测试中也以40.7的得分保持极强竞争力,并接近领先模型Gemini2.5-Pro的水平,彰显了其编程领域的卓越性能。

(文章来源:财中社)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

