AI导读:

AI大模型产业围绕大模型能力、算力以及产品力这“三力”持续发展与创新。业内认为,大模型发展有三条路径:增加数据和算力、实现多模态、增强复杂推理功能。同时,算力紧缺问题亟待解决,各大公司纷纷进行创新与迭代。在产品力方面,各大模型公司推出面向普通用户的App,打造一站式AI服务。

AI大模型产业的蓬勃发展中,“三力”——大模型能力、算力以及产品力,成为了推动行业前行的关键要素。随着AI大模型能力的日新月异,算力成为支撑其发展的生命线,而产品力则日益成为市场竞争的新焦点。为了深入探讨大模型产业如何围绕这“三力”作答,并开创新局面,上海证券报记者近期采访了腾讯、阿里、稀宇科技MiniMax等国内头部大模型公司的相关人士。

大模型能力:持续迭代与创新

业内普遍认为,大模型的发展有三条主要路径:一是通过增加数据和算力,提升模型的参数规模;二是实现多模态,即让大模型能够理解和生成文字、图像、音频、视频等多种内容;三是增强复杂推理和逻辑自我纠正功能,以提高模型的准确性。阿里云智能科技研究中心主任安琳指出,这三条路径并不冲突,大模型厂商正在同时朝这三个方向进行投入,且每季度都有较大的版本更新。

近年来,主流大模型的参数规模从百亿级逐渐迭代至数千亿,甚至万亿级别。然而,随着参数规模的扩大,边际效益递减的现象开始显现。因此,多模态和全模态的发展成为了新的趋势。例如,腾讯在文生图领域推出了首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,展现了多模态技术的创新应用。

此外,OpenAI推出的o1、o3模型系列也聚焦于“深度思考”,通过提升模型的推理能力来获得更可靠的响应,这标志着大模型能力正向更高层次迈进。

算力挑战:创新与高效利用

算力作为大模型的生命线,在全球算力供不应求的背景下显得尤为重要。为了破解算力紧缺的难题,业界在架构、训练平台、算力网络等方面进行了创新与迭代。MoE(混合专家)架构体系已成为主流大模型采用的技术架构,它通过将大模型的参数分成若干“专家模型”,在处理任务时只调用相关“专家模型”,从而降低了算力消耗。

MiniMax作为国内率先采用MoE架构的公司之一,其副总裁刘华介绍,这一架构有效提升了算力利用效率。同时,采用线性注意力机制也是提高计算效率的一种方式。MiniMax发布的MiniMax-01全新系列模型能够高效处理全球最长400万token的上下文,展现了其在算力利用方面的创新成果。

腾讯混元大模型负责人也强调,全链路自研的能力是竞争的关键。腾讯拥有万卡规模的算力集群和自研的星脉算力网络,具备业界最高的通信带宽和性能,有效降低了算力成本。

随着AI应用在全社会的普及,云计算成为了高效利用社会算力资源的最佳途径。安琳表示,云计算与大模型的关系紧密相连,通过云计算共享算力可以有效提高算力利用率,降低算力成本。

产品力出圈:打造一站式AI服务

在产品力方面,各大模型公司纷纷推出了面向普通用户的App,以打造一站式AI服务为目标。中信建投证券的数据显示,2024年12月全球前20的AI产品App端月活合计近8亿,同比增长7.35%;国内前20的AI产品App端月活合计达到1.66亿,同比增长17.65%。

夸克业务负责人表示,大模型正在从“写诗作画”走向“解决问题”,通过打造一站式AI服务和系统级全场景AI能力,为用户提供更高效的信息服务。同时,互联网大厂拥有丰富的数字生活场景,AI大模型在这些场景中的落地有效升级了用户体验。例如,腾讯已在超过700个业务场景中接入了混元大模型,服务了数以亿计的用户。

微信读书基于腾讯混元大模型推出的“AI问书”和“AI大纲”等新功能,让用户可以直接在电子书中“划词提问”,由内嵌的混元大模型提供解答。这一功能不仅提升了用户的阅读体验,还将多本电子书关联在一起,方便用户按主题阅读和研究。

(文章来源:上海证券报,本文总结了AI大模型产业围绕大模型能力、算力以及产品力这“三力”的发展现状和趋势,展现了业界的创新与突破。)