AI导读:

DeepSeek开源周连续五天发布五个开源代码库,累计获得近2.8万颗星星。这些项目旨在提升AI大模型训练效率和GPU效能。与此同时,海内外大模型发布频繁,但GPT-4.5定价高昂引发失望。DeepSeek在算法和工程细节上毫无保留,掌握核心秘密。

2月最后一天,Deepseek开源周正式收官。连续五天,这家公司在大模型开源生态中的技术地位不断攀升。五天共发布了五个开源代码库,分别是FlashMLA、DeepEP、DeepGEMM、DualPipe和EPLB,这些项目在Github上累计获得星星数量接近2.8万颗,展现了其在AI领域的深厚积累。

FlashMLA作为首日的重磅产品,是DeepSeek面向Hopper GPU的高效MLA解码内核,针对可变长度序列的服务场景进行了优化。MLA——Multi-Head Latent Attention是DeepSeek的创新,FlashMLA则是针对MLA在解码阶段的加速器,旨在提高算力利用效率。

次日发布的DeepEP旨在提升GPU效能,专为专家混合(MoE)和专家并行(EP)量身定制,通过高效协同专家模型之间的通信,实现高吞吐量和低延迟的兼顾,大幅降低计算资源消耗。

第三天的DeepGEMM是DeepSeek-V3中的通用矩阵乘法加速库,支持FP8精度,旨在降低消耗、提升速度,同时保持计算准确度。它与英伟达的CUDA核心相结合,实现了高性能计算。

第四天发布了由DualPipe和EPLB构成的优化并行策略。DualPipe通过双向并行算法大幅减少流水线并行中的效率浪费,EPLB则通过专家并行负载均衡器优化GPU之间的负载均衡,提高通信效率。

最后一天,DeepSeek推出了3FS(Fire-Flyer File System)和数据处理框架Smallpond。3FS是一个分布式文件系统,可实现高速数据访问,提高AI模型训练和推理效率。Smallpond进一步优化3FS的数据管理能力,能够处理PB级别的数据。

DeepSeek开源周的所有内容几乎“开箱即用”,团队提供了详细操作指南。AI大模型行业人士指出,这五项开源内容均针对训练效率的优化细节,其中DeepEP尤为突出,对MoE的提升显著。

同时,DeepSeek在AI Infra层的优异表现也备受关注。针对AI Infra的优化措施存在于任何一家AI大模型公司,而DeepSeek选择开源,旨在建立更大的开源生态。此外,DeepSeek与英伟达的硬件生态绑定也引发讨论,但被认为是合理路径。

近期,海内外大模型发布频繁,包括腾讯混元Turbo S、阿里通义千问QwQ-Max预览版、Anthropic的Claude 3.7 Sonnet和OpenAI的GPT-4.5。然而,GPT-4.5并未激起巨大水花,定价高昂,让业界失望。

相比之下,DeepSeek在算法和工程细节上毫无保留,但仍掌握一些核心秘密,如模型训练深层次的know how和训练数据细节,这是其创新的关键。

(文章来源:界面新闻)