AI导读:

长江证券发布AI产业速递,称Janus-Pro采用创新性自回归框架,展现卓越的多模态理解和文本到图像指令遵循能力,超越Stable Diffusion和DALL-E 3,同时训练成本大幅降低,有望推动AI行业整体降本。

财中社2025年2月6日电 长江证券最新发布的软件与服务行业AI产业速递揭示,创新性自回归框架的引入,或使Janus-Pro成为下一代统一多模态模型的明星候选。这款模型基于Deepseek-LLM-1.5b-base/DeepSeek-LLM-7b-base精心构建,并融入了革命性的自回归框架,成功地将多模态的理解与生成融为一体,并通过视觉编码解耦,显著提升了多模态的处理能力。此外,Janus-Pro还整合了优化的训练策略、丰富的训练数据以及更大规模的模型扩展,使其在多模态理解和文本到图像指令遵循方面取得了显著突破,进一步增强了文本到图像生成的稳定性。

在基准测试中,Janus-Pro表现卓越,成功超越了Stable Diffusion和OpenAI的DALL-E 3。根据多项基准测试结果,Janus-Pro展现出了出色的多模态理解能力,并在文本到图像的指令跟踪性能上实现了显著提升。特别是在多模态理解基准MMBench上,Janus-Pro-7B以79.2的高分,力压Janus (69.4)、TokenFlow (68.9)和MetaMorph (75.2)。同时,在文本到图像指令跟踪排行榜GenEval中,Janus-Pro-7B以0.80的优异成绩,同样超越了Janus (0.61)、DALL-E 3 (0.67)和Stable Diffusion 3 Medium(0.74),充分证明了其卓越的性能。

值得一提的是,通过数据规模和蒸馏方法等方面的创新突破,DeepSeek的训练成本大幅降低。Janus-Pro 1.5B和7B两款模型分别在配备16、32个计算节点的集群上进行训练,每个节点配备8张Nvidia A100(40GB)GPU,总训练时间分别为7天和14天,而总成本却仅为数万美元。这一低廉的训练成本,无疑为AI模型的广泛应用提供了有力支持。此外,DeepSeek还将Janus-Pro开源,使得现有AI应用厂商能够利用开源模型和可控算力构建新的AI大模型体系,有望进一步推动多模态大模型的成本降低,并加速其在实际应用中的落地。

(来源:财中社)