李飞飞团队50美元打造AI推理模型s1-32B引热议
AI导读:
李飞飞等研究人员以不到50美元费用打造AI推理模型s1-32B,性能与尖端模型相当,但成本及性能真实性引发讨论。论文核心在于测试时拓展技术,高质量数据集降低训练成本。
当地时间2月6日,据外媒报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100GPU,耗时26分钟就完成了训练,成功“打造”出了一个名为s1-32B的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和Deepseek的R1等尖端推理模型不相上下,在竞赛数学问题上的表现更是比o1-preview高出27%。
凭借低成本、高效能,s1模型成为继“AI界价格屠夫”DeepSeek之后再次引发科技界热议的话题。但s1推理模型的成本真的只有50美元吗?其性能是否真有描述的那么出色?在“白菜价”的背后,李飞飞团队又有哪些探索?
针对成本问题,复旦大学计算机学院副教授、博士生郑骁庆在接受《每日经济新闻》记者采访时指出,“像DeepSeek或者类似的公司,在寻找有效的整合解决方案时,需要进行大量的前期研究与消融实验。”这意味着前期是需要大量“烧钱”的。
疑问一:只用50美元?
据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,就完成了模型s1-32B的训练。然而,关于训练成本,有几点需要明确。
首先,模型s1-32B的打造并非是从零开始,而是基于现成的、预训练的模型(阿里通义千问Qwen2.5-32B-Instruct)进行监督微调。其次,50美元是否包含了其他数据、设备、消融实验等费用,还要打一个问号。
疑问二:性能这么强?
李飞飞团队发表的论文提到,s1-32B模型在数学和编码能力测试中表现优异,但在特定的测试集上超过o1-preview,并未超过“满血版”o1和DeepSeek-R1。
重点不在“白菜价”
事实上,李飞飞团队论文的核心也并不在于如何“卷”模型价格,而是研究如何以最简单的方式实现“测试时拓展”(test- time scaling),即模型在推理时会进行多次推理迭代,并逐步优化推理结果。
高质量数据集降低成本
此外,李飞飞研究团队还从16个来源收集了59029道高质量题目,并通过三个标准进行验证:难度、多样性和质量。高质量的数据集极大降低了s1-32B模型的训练成本。
(文章来源:每日经济新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

