AI导读:

英伟达研发出新型AI模型Fugatto,可创造声音效果、改变发音方式并生成音乐,对音乐、娱乐及翻译服务等行业产生广泛影响。


据报道,全球图形处理器(GPU)巨头英伟达(Nvidia)近期成功研发出一种创新的人工智能(AI)模型——Fugatto,全称为Foundational Generative Audio Transformer Opus 1。该模型不仅能够创造出逼真的声音效果,还能改变人的发音方式,更可通过自然语言提示生成个性化音乐。

英伟达方面表示,尽管目前暂无发布该技术的计划,但Fugatto模型有望对音乐、娱乐乃至翻译服务等众多行业产生深远影响。这一研究项目不仅展现了英伟达在AI领域的深厚积累,更预示着音频处理技术的全新革命。

英伟达应用深度学习研究副总裁Bryan Catanzaro在采访中透露,Fugatto最令人瞩目的特性在于其高度灵活性与适应性。用户可通过简单的指令要求模型以特定方式发声,极大地拓宽了其应用场景与想象空间。

Catanzaro进一步解释说,相较于市场上现有的其他音频处理模型,Fugatto具有显著优势。它不仅能够合成语音、为音乐添加音效,还能同时实现这两项功能,并可与视频和图像生成模型形成有效互补,如Stability AI的Stable Video Diffusion或OpenAI的Sora等。

“我们能够通过语言合成音频,这为用户提供了前所未有的音频创作工具。”Catanzaro补充道,“这一技术革新将为用户带来全新的音频创作体验,推动音频领域的创新发展。”

据英伟达介绍,Fugatto作为首个具备新兴特性的基础模型,能够混合经过训练的元素,并遵循“自由形式的指令”。用户可通过标准的文字提示生成所需音频,也可上传音频文件进行个性化处理。例如,将某人的说话文件翻译成另一种语言,同时保持其原有音色;或将简单的曲调转化为管弦乐表演效果,为音乐添加不同节拍。

此外,Fugatto还支持用户上传文档,并以任意喜欢的声音进行朗读。更神奇的是,用户可指示模型发出带有情感色彩的声音,进一步提升音频的表现力和感染力。

然而,Catanzaro也坦诚表示,尽管Fugatto模型功能强大,但仍存在不足之处。同时,这一技术的出现也引发了艺术家、音响工程师等相关领域人员的担忧。但Catanzaro强调,他的初衷是希望这项技术能够成为音乐家们的得力助手。

“我希望Fugatto能成为艺术家们探索的新工具。”Catanzaro表示,“音频领域一直充满创新活力。我相信,随着新音频工具的出现,我们将迎来全新的音乐形式。”

(文章来源:财联社)