NVIDIA 开发全新生成式 AI 模型「Fugatto」,以文字和音讯输入来创造声音、对话及音乐。
Fugatto(全名为 Foundational Generative Audio Transformer Opus 1)运用文字和音讯档案,将提示描述转换成声音、对话及音乐的任意组合。可根据文字提示产生一段音乐,从现有歌曲独立出人声部分,改变说话的口音或语气,甚至合成前所未有的声音。
NVIDIA 列举 Fugatto 的应用场景,例如音乐制作人可用 Fugatto 加速歌曲制作,尝试不同风格、声音及乐器,还能添加音效、提升现有歌曲整体音讯品质。
面对不同地区和市场的宣传需求,广告公司可用 Fugatto 产生不同口音或语气的广告配音。语言学习工具能够个人化,使用用户选择的声音来发音。还有电玩游戏开发者也能用 Fugatto 修改预先录制的声音资料,对应玩家游戏时不断变化的动作,或者根据文字提示和可选音讯产生新的声音资产。
「我们希望建立一个能够像人类一样理解和生成声音的模型」,NVIDIA 应用音讯研究经理 Rafael Valle 表示,他是开发 Fugatto 十多人团队的成员之一,同时也是一位管弦乐作曲家与指挥家。「Fugatto 是我们迈向未来的第一步,音讯合成和转换中的无监督多任务学习将根据资料和模型规模而产生」,他说。
▲ 新模型 Fugatto 介绍和示范。
深入了解 Fugatto
Fugatto 建立在开发团队先前在语音建模、音讯声码及音讯理解等领域的工作基础上,宣称以开源资料进行训练。完整版本使用 25 亿参数,并在一组包含 32 个 NVIDIA H100 Tensor Core GPU 的 DGX 系统训练而成。
这项开发工作最困难的部分是产生一个混合资料集,包含数百万个用於训练的音讯样本。开发团队采用多面向策略来产生资料和指令,扩展该模型可执行的任务范围,做到更准确的效能,同时无需额外资料就能达成新任务。
在推理过程中,Fugatto 使用名为 ComposableART 的技术,以组合只在训练期间单独看到的指令,这方面具体应用如要求 Fugatto 用法国口音说出带有悲伤情绪的文字。
值得一提的是,Fugatto 由来自世界各地的成员合力研究,包括印度、巴西、中国、约旦及韩国,大家通力合作使 Fugatto 多语言和多口音能力变得更强。
虽然 Fugatto 尚未开放测试,NVIDIA 深度学习应用研究副总裁 Bryan Catanzaro 则认为,生成式 AI 将为音乐、电玩游戏及想要创造新事物的一般人带来新能力。
(首图来源:pixabay)