AI导读:

国产大模型DeepSeek-V3以卓越性能和极低训练成本引发全球关注,同时带火AI“天才少女”罗福莉。罗福莉曾参与DeepSeek-V2研发,近日被小米创始人雷军以千万年薪招揽至小米AI实验室。

国产大模型Deepseek在全球引发轰动,其卓越性能及高性价比赢得了广泛关注,同时带火了一位95后AI“天才少女”罗福莉。DeepSeek公司,即中国量化私募巨头幻方量化旗下的AI大模型研发公司,宣布其全新系列模型DeepSeek-V3首个版本上线并同步开源。该模型以卓越性能媲美全球顶级模型,且训练成本极低,被誉为“AI界的拼多多”。

DeepSeek-V3作为深度求索自研的MoE模型,参数量为671B,激活参数为37B,使用的预训练token量为14.8万亿,在多项评测中超越了阿里的Qwen2.5-72B和MetadeLlama-3.1-405B等开源模型,性能与GPT-4o和Claude-3.5-Sonnet等顶尖闭源模型相当。其训练成本仅为600万美元不到,是Meta旗下顶尖开源模型Llama-3405B训练成本的十分之一。

这一高性价比的模型引发了国内外广泛关注,Meta的AI研究科学家田渊栋和知名AI数据公司ScaleAI创始人兼CEO AlexandrWang均对DeepSeek-V3表示赞赏。DeepSeek-V3的发布也再次让人们关注到背后的研发团队,特别是被称为“AI天才少女”的罗福莉。她曾参与DeepSeek-V2的研发,是这款模型的关键开发者之一。近日,媒体报道称小米创始人雷军以千万年薪招揽罗福莉,她将就职于小米AI实验室,领导大模型团队。

DeepSeek专注于开发先进的大语言模型和相关技术,早在半年前发布的DeepSeek-V2就因性能达GPT-4级别且性价比高而引发业内关注。DeepSeek也是中国最早开启大模型降价的厂商之一,其创始人梁文锋表示,他们并非有意成为“鲶鱼”,只是专注于技术研发,不依靠外部融资,凭借早期购买的算力卡和量化背景,做出了有性价比并被全球主流AI界人士认可的大模型。

罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。她在人工智能领域顶级国际会议ACL上发表过多篇论文,并在阿里达摩院从事预训练语言模型相关工作。加入DeepSeek后,她参与了MoE大模型DeepSeek-V2的研发。罗福莉的加入也是小米全面发力AI大模型的一个动作,小米正着手搭建自己的GPU万卡集群,提升算力储备,为大模型研发提供更充分的算力供给。