英伟达研发AI音频模型Fugatto，或引领音频处理技术革命

财经聚焦 2024-11-26 08:35:26 来源：财联社作者：网络

AI导读：

英伟达研发出新型AI模型Fugatto，可创造声音效果、改变发音方式并生成音乐，对音乐、娱乐及翻译服务等行业产生广泛影响。

据报道，全球图形处理器（GPU）巨头英伟达（Nvidia）近期成功研发出一种创新的人工智能（AI）模型——Fugatto，全称为Foundational Generative Audio Transformer Opus 1。该模型不仅能够创造出逼真的声音效果，还能改变人的发音方式，更可通过自然语言提示生成个性化音乐。

英伟达方面表示，尽管目前暂无发布该技术的计划，但Fugatto模型有望对音乐、娱乐乃至翻译服务等众多行业产生深远影响。这一研究项目不仅展现了英伟达在AI领域的深厚积累，更预示着音频处理技术的全新革命。

英伟达应用深度学习研究副总裁Bryan Catanzaro在采访中透露，Fugatto最令人瞩目的特性在于其高度灵活性与适应性。用户可通过简单的指令要求模型以特定方式发声，极大地拓宽了其应用场景与想象空间。

Catanzaro进一步解释说，相较于市场上现有的其他音频处理模型，Fugatto具有显著优势。它不仅能够合成语音、为音乐添加音效，还能同时实现这两项功能，并可与视频和图像生成模型形成有效互补，如Stability AI的Stable Video Diffusion或OpenAI的Sora等。

“我们能够通过语言合成音频，这为用户提供了前所未有的音频创作工具。”Catanzaro补充道，“这一技术革新将为用户带来全新的音频创作体验，推动音频领域的创新发展。”

据英伟达介绍，Fugatto作为首个具备新兴特性的基础模型，能够混合经过训练的元素，并遵循“自由形式的指令”。用户可通过标准的文字提示生成所需音频，也可上传音频文件进行个性化处理。例如，将某人的说话文件翻译成另一种语言，同时保持其原有音色；或将简单的曲调转化为管弦乐表演效果，为音乐添加不同节拍。

此外，Fugatto还支持用户上传文档，并以任意喜欢的声音进行朗读。更神奇的是，用户可指示模型发出带有情感色彩的声音，进一步提升音频的表现力和感染力。

然而，Catanzaro也坦诚表示，尽管Fugatto模型功能强大，但仍存在不足之处。同时，这一技术的出现也引发了艺术家、音响工程师等相关领域人员的担忧。但Catanzaro强调，他的初衷是希望这项技术能够成为音乐家们的得力助手。

“我希望Fugatto能成为艺术家们探索的新工具。”Catanzaro表示，“音频领域一直充满创新活力。我相信，随着新音频工具的出现，我们将迎来全新的音乐形式。”

（文章来源：财联社）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。