Audiobox: 统一音频生成的自然语言触发器

Dec, 2023

Audiobox: 统一音频生成的自然语言触发器

Audiobox: Unified Audio Generation with Natural Language Prompts

Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu...

TL;DRAudiobox 是一种基于流匹配的统一模型，通过描述和示例的提示来增强可控性，统一了语音和声音生成范式，并通过使用 Bespoke Solvers 提高生成速度。

Abstract

Audio is an essential part of our life, but creating it often requires expertise and is time-consuming. Research communities have made great progress over the past year advancing the performance of large scale audio generative models for a single modality (speech, sound, or music) through adopting more powerful generative models and scaling data. However, th

audio generative models controllability speech generation sound generation audiobox

发现论文，激发创造

Voicebox: 多语言通用语音生成的文本引导技术大规模应用

Voicebox 是实现规模可扩展的非自回归流匹配模型，通过上下文学习可以执行音频转换、噪音去除、内容编辑以及样本生成等多项任务，且在零样本 TTS 合成方面优于 VALL-E 模型。

Jun, 2023

AudioGen: 基于文本指导的音频生成

本文提出了一种基于文本输入生成音频的生成模型，使用数据增强技术和多流建模来减轻音频生成中的诸多挑战，包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等，并实现了比其他基准模型更好的音频生成效果。

Sep, 2022

关于有条件音频生成中的开放提示挑战

通过使用指令调整模型改写提示文本并利用文本音频对齐作为反馈信号，通过边界排序学习从而改善音频的质量和文本音频的对齐，从客观和主观的人类评估中观察到了明显的改善。

Nov, 2023

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024

音频 LDM 2：使用自监督预训练学习整体音频生成

该研究提出了一个框架，使用相同的学习方法进行语音、音乐和音效生成，引入了一种名为 “语言音频（LOA）” 的音频通用表示，并通过 AudioMAE 和潜在扩散模型进行自监督训练，实现了在文本到音频、文本到音乐和文本到语音等任务上的最先进性能。

Aug, 2023

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

多条件扩散模型的音频生成

我们提出了一种新的模型，通过包含额外条件（时间戳、语调曲线和能量曲线）作为文本的补充，增强了现有预训练文本转音频模型的可控性，实现了对生成音频的时间顺序、音高和能量的精细控制。通过使用可训练的控制条件编码器和可训练的融合网络，在保持预训练文本转音频模型权重不变的同时，将额外条件编码和融合。由于缺乏合适的数据集和评估指标，我们将现有数据集整合成一个包含音频和相应条件的新数据集，并使用一系列评估指标来评估可控性能。实验结果表明，我们的模型成功实现了细粒度控制，实现了可控的音频生成。音频样本和我们的数据集可在此 https URL 获取。

Aug, 2023

对齐，自适应和注入：音频引导的统一图像生成

本文提出了一个统一框架 ——Align, Adapt, and Inject (AAI)，用于基于声音进行图像生成、编辑和风格化。其方法将输入的声音转换成一个声音令牌，并利用现有强大的扩散式 T2I 模型，从而实现了方便而经济的声音引导的图像生成、编辑和风格化。实验表明，AAI 方法优于其他最先进的文本和声音引导方法。

Jun, 2023

Music2Video：音频和文本融合的自动生成音乐视频

利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像，进一步实现音乐视频创作，我们提出的方法需要对视频进行自动分段，同时保持时间上的一致性，与以前的方法不同，我们的方法融合了文本和音频两个模态，展示了良好的应用效果

Jan, 2022

通过听觉引导的零射频音频字幕生成

音频字幕任务与图像和视频字幕任务在本质上相似，但鲜有关注。我们提出了音频字幕的三个愿景：生成文本的流畅性，生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法，不通过学习而是通过推理过程来进行字幕生成，其中涉及的三个网络对应三个期望的质量：（i）一个大型语言模型，本文中为 GPT-2，（ii）一个在音频文件和文本之间提供匹配分数的模型，我们使用一种名为 ImageBind 的多模态匹配网络，（iii）一个文本分类器，利用我们自动收集的数据集进行训练，数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果，证明了听觉指导明显提高了性能，相比缺乏这一目标的基准系统。

Sep, 2023