美团LongCat-Flash-Thinking-2601模型开源
AI导读:
美团LongCat团队发布了其最新模型LongCat-Flash-Thinking-2601的开源版本。该模型在多个核心评测基准上达到开源模型的最先进水平。该模型在工具调用的泛化能力上优势明显,支持“重思考”模式。
新京报贝壳财经讯1月16日,美团LongCat官微消息,作为LongCat-Flash-Thinking模型的升级版,LongCat-Flash-Thinking-2601现已开源。团队介绍,新模型在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上,达到开源模型SOTA(最先进的水平)水平。新模型在工具调用的泛化能力上优势明显,在依赖工具调用的随机复杂任务中,性能表现超越了Claude-Opus-4.5-Thinking,可大幅度降低真实场景下新工具的适配训练成本;同时,新模型支持“重思考”模式,可同时启动8个“大脑”执行任务。
新京报贝壳财经记者进入美团LongCat实测,选定“深度思考”模式,输入:“2010年冬季是冷冬还是暖冬?”页面显示,“接下来,我将以多种思考方式同时进行深度思考,每个 Thinker 将会独立给出一个回复,最终我会将这些回复整合成一个更全面的结论。”页面显示了8个思考结果分析:2010年冬季应该是指2010年12月至2011年2月,Thinker #7提到“2009年12月至2010年2月”作为2010年冬季,这是错误的。根据国家气候中心的标准,冬季平均气温较常年偏低0.5℃以上才达到冷冬标准。Thinker #3和#8提出了不同观点,认为整体未达冷冬标准。最后系统结论为,2010年冬季是一个“前冬暖、隆冬冷”的复合型冬季,在强拉尼娜事件影响下,冷空气活动频繁且强度强,尽管全国平均气温偏低幅度未 strictly 达到0.5℃标准,但综合极端天气事件和区域严寒特征,仍被权威机构判定为冷冬。这一现象体现了全球变暖背景下极端天气事件的复杂性。
记者输入“100字概括罗永浩的锤子科技倒闭原因?”系统分析显示,除了字数要求外,Thinker #1提到“内部动荡和战略摇摆”,Thinker #2提到“管理经验缺乏”,Thinker #3提到“融资困难”,Thinker #4强调“供应链”,Thinker #5提到“跨界创业”和“过度投入营销研发”,Thinker #6提到“营销成本失控”,Thinker #7提到“未能规模化盈利”,Thinker #8提到“缺乏商业运营敬畏心”和“依赖情怀”。系统对比完8个思考后得出结论,“锤子科技倒闭核心是资金链断裂,深层原因为:产品定价过高致销量惨淡,过度重视设计与营销而忽视供应链管理与成本控制;市场竞争激烈,战略摇摆不定;创始人罗永浩的理想主义与商业现实脱节,跨界管理经验不足,最终难以为继。”
记者注意到,2025年春节前后,各大AI大模型逐步上线“深度思考”功能。目前,各大AI大模型的“深度思考”结果并非完全准确,以至于可能出现答非所问,产生虚幻结果。美团此次新模型支持“重思考”模式,相当于系统8次独立思考,再对结果进行复核。
对于新模型的技术思路,LongCat团队解释称...
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

