AI 改变口音、合成前所未有声音，NVIDIA 推新模型「Fugatto」

NVIDIA 开发全新生成式 AI 模型「Fugatto」，以文字和音讯输入来创造声音、对话及音乐。

Fugatto（全名为 Foundational Generative Audio Transformer Opus 1）运用文字和音讯档案，将提示描述转换成声音、对话及音乐的任意组合。可根据文字提示产生一段音乐，从现有歌曲独立出人声部分，改变说话的口音或语气，甚至合成前所未有的声音。

Google 执行长赞赏 DeepSeek，大举追加 AI 投资

美媒：字节跳动 2025 年拟斥资 70 亿美元买辉达晶片

台股市值比韩股多近 1 兆美元，专家：台湾明年仍俏

NVIDIA 列举 Fugatto 的应用场景，例如音乐制作人可用 Fugatto 加速歌曲制作，尝试不同风格、声音及乐器，还能添加音效、提升现有歌曲整体音讯品质。

面对不同地区和市场的宣传需求，广告公司可用 Fugatto 产生不同口音或语气的广告配音。语言学习工具能够个人化，使用用户选择的声音来发音。还有电玩游戏开发者也能用 Fugatto 修改预先录制的声音资料，对应玩家游戏时不断变化的动作，或者根据文字提示和可选音讯产生新的声音资产。

「我们希望建立一个能够像人类一样理解和生成声音的模型」，NVIDIA 应用音讯研究经理 Rafael Valle 表示，他是开发 Fugatto 十多人团队的成员之一，同时也是一位管弦乐作曲家与指挥家。「Fugatto 是我们迈向未来的第一步，音讯合成和转换中的无监督多任务学习将根据资料和模型规模而产生」，他说。

▲ 新模型 Fugatto 介绍和示范。

深入了解 Fugatto

Fugatto 建立在开发团队先前在语音建模、音讯声码及音讯理解等领域的工作基础上，宣称以开源资料进行训练。完整版本使用 25 亿参数，并在一组包含 32 个 NVIDIA H100 Tensor Core GPU 的 DGX 系统训练而成。

这项开发工作最困难的部分是产生一个混合资料集，包含数百万个用於训练的音讯样本。开发团队采用多面向策略来产生资料和指令，扩展该模型可执行的任务范围，做到更准确的效能，同时无需额外资料就能达成新任务。

在推理过程中，Fugatto 使用名为 ComposableART 的技术，以组合只在训练期间单独看到的指令，这方面具体应用如要求 Fugatto 用法国口音说出带有悲伤情绪的文字。

值得一提的是，Fugatto 由来自世界各地的成员合力研究，包括印度、巴西、中国、约旦及韩国，大家通力合作使 Fugatto 多语言和多口音能力变得更强。

虽然 Fugatto 尚未开放测试，NVIDIA 深度学习应用研究副总裁 Bryan Catanzaro 则认为，生成式 AI 将为音乐、电玩游戏及想要创造新事物的一般人带来新能力。

（首图来源：pixabay）

AI 改变口音、合成前所未有声音，NVIDIA 推新模型「Fugatto」

Google 执行长赞赏 DeepSeek，大举追加 AI 投资

美媒：字节跳动 2025 年拟斥资 70 亿美元买辉达晶片

台股市值比韩股多近 1 兆美元，专家：台湾明年仍俏

光宝科升级 AI 伺服器电源设计！大摩却调降目标价至 88.8 元

过度修正产生新 AI 偏见？研究：「英式」名字男性在科技面试得分较低

surfshark是什么

Related Posts

Google 执行长赞赏 DeepSeek，大举追加 AI 投资

美媒：字节跳动 2025 年拟斥资 70 亿美元买辉达晶片

台股市值比韩股多近 1 兆美元，专家：台湾明年仍俏

全新AI挑战！成功让Freysa说「我爱你」可获数万美元奖金

库克接受外媒访问，透露早在 2017 年就开始研发人工智慧

过度修正产生新 AI 偏见？研究：「英式」名字男性在科技面试得分较低

Recommended

Google 购买 NVIDIA Blackwell，NVIDIA AI 生态系收推波助澜之效

苹果 HomePod Mini 温湿度计功能解锁未来可增加更多智慧连网装置连动

分类

Don't miss it

Google 执行长赞赏 DeepSeek，大举追加 AI 投资

【教学】教你打开 macOS 的最大权限

AI 图片增强工具《Pictura》终身高级版限时免费

人体免疫防线启动速度超乎想像成大新发现改变我们对免疫系统的理解

美媒：字节跳动 2025 年拟斥资 70 亿美元买辉达晶片

欧盟要求苹果开放 iOS 系统与竞争对手技术互通

AI 改变口音、合成前所未有声音，NVIDIA 推新模型「Fugatto」

You might also like

深入了解 Fugatto

光宝科升级 AI 伺服器电源设计！大摩却调降目标价至 88.8 元

过度修正产生新 AI 偏见？研究：「英式」名字男性在科技面试得分较低

Related Posts

Recommended

分类

Don't miss it