多条件扩散模型的音频生成

AAAIAug, 2023

Audio Generation with Multiple Conditional Diffusion Model

Zhifang Guo, Jianguo Mao, Rui Tao, Long Yan, Kazushige Ouchi...

TL;DR我们提出了一种新的模型，通过包含额外条件（时间戳、语调曲线和能量曲线）作为文本的补充，增强了现有预训练文本转音频模型的可控性，实现了对生成音频的时间顺序、音高和能量的精细控制。通过使用可训练的控制条件编码器和可训练的融合网络，在保持预训练文本转音频模型权重不变的同时，将额外条件编码和融合。由于缺乏合适的数据集和评估指标，我们将现有数据集整合成一个包含音频和相应条件的新数据集，并使用一系列评估指标来评估可控性能。实验结果表明，我们的模型成功实现了细粒度控制，实现了可控的音频生成。音频样本和我们的数据集可在此 https URL 获取。

Abstract

text-based audio generation models have limitations as they cannot encompass all the information in audio, leading to restricted controllability when relying solely on text. To address this issue, we propose a no

text-based audio generation controllability pre-trained models additional conditions evaluation metrics

发现论文，激发创造

AudioToken：基于文本条件扩散模型的音频到图像生成适应性

本论文提出了一种新方法，利用文本 - 图像生成中训练的潜在扩散模型，生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌，这可以被视为音频和文本表示之间的自适应层。结果表明，相较于基准方法，该方法在客观和主观度量方面表现优异。

May, 2023

AudioGen: 基于文本指导的音频生成

本文提出了一种基于文本输入生成音频的生成模型，使用数据增强技术和多流建模来减轻音频生成中的诸多挑战，包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等，并实现了比其他基准模型更好的音频生成效果。

Sep, 2022

音频驱动的预训练扩散模型生成与编辑

我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法，通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中，引入了额外的音频 - 图像交叉注意力层，可以与扩散编辑方法相结合进行音频条件的图像编辑。

May, 2024

扩散模型与指导梯度实现可控音乐制作

我们展示了如何从扩散模型中进行条件生成，以解决音乐制作中的各种现实任务，包括音乐音频的延续、修复和再生，不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。

Nov, 2023

面向音乐大语言模型的基于内容的控制

我们介绍了 Coco-Mulla，这是一种用于音乐大型语言模型的基于内容的控制方法，通过参数高效的微调方法进行训练，在使用少于 300 首歌曲的小数据集进行调整时，相比于原始模型，使用了不到 4% 的参数。我们的方法实现了高质量的音乐生成，并通过和文本描述结合，展示了灵活的音乐变体生成和风格转换。

Oct, 2023

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

智能人工代理数据增强的可控文本生成

通过文本生成技术，使用编码器 - 解码器生成模型来增加受训人工智能代理的训练数据，从而实现更快地开发新功能。该方法需要直接优化，适用于有限的数据，并明显优于以往的受控文本生成技术。此外，生成的数据用作外在意图分类任务的附加训练样本，增强了低资源情况下高达 5％绝对 f-score 性能的表现，证实了该方法的实用性。

Oct, 2019

基于潜在扩散模型的文本驱动 Foley 声音生成

本研究提出了一种基于扩散模型的 Foley 声音生成系统，该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习，将该模型初始化地进行了预训练，以缓解数据不足问题。实验结果表明，该方法显着提高了声音生成性能，使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。

Jun, 2023

ArchiSound: 漫射生成音频

该论文研究了扩散模型在音频生成方面的应用，提出了多种模型来满足音频生成的多方面需求，并通过简化工具库加速实时推理。

Jan, 2023

层次式生成模型用于可控语音合成

该研究提出了一种神经序列到序列的文本转语音模型，基于变分自动编码器（VAE）框架，通过两级分层潜变量，实现对生成语音中很少被训练数据标记的潜在属性的控制，包括口音、语速、噪声等，其中第一级为类别变量，第二级为多元高斯变量，通过高斯混合模型 (GMM) 实现。经广泛评估，该模型展现出控制这些潜在属性的能力。

Oct, 2018