DeepSeek-V3大模型火爆全球，AI“天才少女”罗福莉受瞩目

财经聚焦 2024-12-29 19:16:04 来源：证券时报作者：网络

AI导读：

国产大模型DeepSeek-V3以卓越性能和极低训练成本引发全球关注，同时带火AI“天才少女”罗福莉。罗福莉曾参与DeepSeek-V2研发，近日被小米创始人雷军以千万年薪招揽至小米AI实验室。

国产大模型Deepseek在全球引发轰动，其卓越性能及高性价比赢得了广泛关注，同时带火了一位95后AI“天才少女”罗福莉。DeepSeek公司，即中国量化私募巨头幻方量化旗下的AI大模型研发公司，宣布其全新系列模型DeepSeek-V3首个版本上线并同步开源。该模型以卓越性能媲美全球顶级模型，且训练成本极低，被誉为“AI界的拼多多”。

DeepSeek-V3作为深度求索自研的MoE模型，参数量为671B，激活参数为37B，使用的预训练token量为14.8万亿，在多项评测中超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等开源模型，性能与GPT-4o和Claude-3.5-Sonnet等顶尖闭源模型相当。其训练成本仅为600万美元不到，是Meta旗下顶尖开源模型Llama-3405B训练成本的十分之一。

这一高性价比的模型引发了国内外广泛关注，Meta的AI研究科学家田渊栋和知名AI数据公司ScaleAI创始人兼CEO AlexandrWang均对DeepSeek-V3表示赞赏。DeepSeek-V3的发布也再次让人们关注到背后的研发团队，特别是被称为“AI天才少女”的罗福莉。她曾参与DeepSeek-V2的研发，是这款模型的关键开发者之一。近日，媒体报道称小米创始人雷军以千万年薪招揽罗福莉，她将就职于小米AI实验室，领导大模型团队。

DeepSeek专注于开发先进的大语言模型和相关技术，早在半年前发布的DeepSeek-V2就因性能达GPT-4级别且性价比高而引发业内关注。DeepSeek也是中国最早开启大模型降价的厂商之一，其创始人梁文锋表示，他们并非有意成为“鲶鱼”，只是专注于技术研发，不依靠外部融资，凭借早期购买的算力卡和量化背景，做出了有性价比并被全球主流AI界人士认可的大模型。

罗福莉本科就读于北京师范大学计算机专业，硕士毕业于北京大学计算语言学专业。她在人工智能领域顶级国际会议ACL上发表过多篇论文，并在阿里达摩院从事预训练语言模型相关工作。加入DeepSeek后，她参与了MoE大模型DeepSeek-V2的研发。罗福莉的加入也是小米全面发力AI大模型的一个动作，小米正着手搭建自己的GPU万卡集群，提升算力储备，为大模型研发提供更充分的算力供给。

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。