AI导读:

李飞飞等研究人员以不到50美元费用打造AI推理模型s1-32B,性能与尖端模型相当,但成本及性能真实性引发讨论。论文核心在于测试时拓展技术,高质量数据集降低训练成本。

当地时间2月6日,据外媒报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100GPU,耗时26分钟就完成了训练,成功“打造”出了一个名为s1-32B的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和Deepseek的R1等尖端推理模型不相上下,在竞赛数学问题上的表现更是比o1-preview高出27%。

凭借低成本、高效能,s1模型成为继“AI界价格屠夫”DeepSeek之后再次引发科技界热议的话题。但s1推理模型的成本真的只有50美元吗?其性能是否真有描述的那么出色?在“白菜价”的背后,李飞飞团队又有哪些探索?

针对成本问题,复旦大学计算机学院副教授、博士生郑骁庆在接受《每日经济新闻》记者采访时指出,“像DeepSeek或者类似的公司,在寻找有效的整合解决方案时,需要进行大量的前期研究与消融实验。”这意味着前期是需要大量“烧钱”的。

疑问一:只用50美元?

据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,就完成了模型s1-32B的训练。然而,关于训练成本,有几点需要明确。

首先,模型s1-32B的打造并非是从零开始,而是基于现成的、预训练的模型(阿里通义千问Qwen2.5-32B-Instruct)进行监督微调。其次,50美元是否包含了其他数据、设备、消融实验等费用,还要打一个问号。

疑问二:性能这么强?

李飞飞团队发表的论文提到,s1-32B模型在数学和编码能力测试中表现优异,但在特定的测试集上超过o1-preview,并未超过“满血版”o1和DeepSeek-R1。

重点不在“白菜价”

事实上,李飞飞团队论文的核心也并不在于如何“卷”模型价格,而是研究如何以最简单的方式实现“测试时拓展”(test- time scaling),即模型在推理时会进行多次推理迭代,并逐步优化推理结果。

高质量数据集降低成本

此外,李飞飞研究团队还从16个来源收集了59029道高质量题目,并通过三个标准进行验证:难度、多样性和质量。高质量的数据集极大降低了s1-32B模型的训练成本。

(文章来源:每日经济新闻)