DeepSeek提出mHC新架构:提高可扩展性并降低AI训练成本
DeepSeek发布新论文,提出名为mHC的架构,旨在提高人工智能系统的可扩展性并降低训练成本。该架构通过恢复恒等映射特性和基础设施优化来提升性能。...
DeepSeek-R1研究论文登《Nature》封面,AI模型训练成本创新低
9月18日,DeepSeek研究论文登上《Nature》封面,其R1模型训练成本仅29.4万美元,远低于行业平均。论文公开了仅靠强化学习激发大模型推理能力的重要成果,DeepSeek-R1成全球最受欢迎开源推理模型。...
阿里发布Qwen3-Next架构及系列模型,展现高效性价比
9月12日阿里发布下一代基础模型架构Qwen3-Next,开源Qwen3-Next-80B-A3B系列模型。该架构有核心改进,Qwen3-Next-80B-A3B-Base模型参数多但激活参数少,性能好且训练成本低。...
Janus-Pro展现卓越性能,或引领下一代多模态模型发展
长江证券发布AI产业速递,称Janus-Pro采用创新性自回归框架,展现卓越的多模态理解和文本到图像指令遵循能力,超越Stable Diffusion和DALL-E 3,同时训练成本大幅降低,有望推动AI行业整体降本。...
中国AI初创公司DeepSeek开源R1模型登顶Arena排行榜
中国AI初创公司深度求索(DeepSeek)推出的开源R1推理模型在Arena排行榜上异军突起,与OpenAI o1并列第一,且训练费用仅为OpenAI最新大模型的三十分之一,有望颠覆AI训练和推理领域的游戏规则。...
中国AI新星DeepSeek-R1模型崛起,引领开源大模型新潮流
中国AI初创公司深度求索(DeepSeek)推出的开源R1推理模型在Arena排名中升至全类别大模型第三,与OpenAI o1并列风格控制类模型第一,且训练费用仅为OpenAI最新大模型的三十分之一,有望颠覆AI训练和推理领域的游戏规则。...
大模型再降价,行业效率与成本并重
本文介绍了国内外主流大模型再次降价的现象,DeepSeek-V3和伯克利大学NovaSky团队的开源模型引发了行业对性价比的关注。训练成本的降低将加快大模型的应用落地,但也对大模型创业公司提出了挑战。文章还讨论了行业效率与成本并重的发展趋势。...



