李飞飞团队50美元打造AI推理模型s1-32B引热议

国际财经 2025-02-10 23:12:11 来源：每日经济新闻作者：网络

AI导读：

李飞飞等研究人员以不到50美元费用打造AI推理模型s1-32B，性能与尖端模型相当，但成本及性能真实性引发讨论。论文核心在于测试时拓展技术，高质量数据集降低训练成本。

当地时间2月6日，据外媒报道，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用，使用了16张英伟达H100GPU，耗时26分钟就完成了训练，成功“打造”出了一个名为s1-32B的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和Deepseek的R1等尖端推理模型不相上下，在竞赛数学问题上的表现更是比o1-preview高出27%。

凭借低成本、高效能，s1模型成为继“AI界价格屠夫”DeepSeek之后再次引发科技界热议的话题。但s1推理模型的成本真的只有50美元吗？其性能是否真有描述的那么出色？在“白菜价”的背后，李飞飞团队又有哪些探索？

针对成本问题，复旦大学计算机学院副教授、博士生郑骁庆在接受《每日经济新闻》记者采访时指出，“像DeepSeek或者类似的公司，在寻找有效的整合解决方案时，需要进行大量的前期研究与消融实验。”这意味着前期是需要大量“烧钱”的。

疑问一：只用50美元？

据报道，李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用，就完成了模型s1-32B的训练。然而，关于训练成本，有几点需要明确。

首先，模型s1-32B的打造并非是从零开始，而是基于现成的、预训练的模型（阿里通义千问Qwen2.5-32B-Instruct）进行监督微调。其次，50美元是否包含了其他数据、设备、消融实验等费用，还要打一个问号。

疑问二：性能这么强？

李飞飞团队发表的论文提到，s1-32B模型在数学和编码能力测试中表现优异，但在特定的测试集上超过o1-preview，并未超过“满血版”o1和DeepSeek-R1。

重点不在“白菜价”

事实上，李飞飞团队论文的核心也并不在于如何“卷”模型价格，而是研究如何以最简单的方式实现“测试时拓展”（test- time scaling），即模型在推理时会进行多次推理迭代，并逐步优化推理结果。

高质量数据集降低成本

此外，李飞飞研究团队还从16个来源收集了59029道高质量题目，并通过三个标准进行验证：难度、多样性和质量。高质量的数据集极大降低了s1-32B模型的训练成本。

（文章来源：每日经济新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。