AUDIT: 采用潜在扩散模型按照说明进行音频编辑
我们提出了一种能够在大规模图像扩散模型中实现音频条件的方法,通过将从音频剪辑中获取的特征映射到可以注入扩散模型的令牌中,引入了额外的音频 - 图像交叉注意力层,可以与扩散编辑方法相结合进行音频条件的图像编辑。
May, 2024
我们开发了 InstructME,这是一个基于潜在扩散模型的指导式音乐编辑和混音框架,通过多尺度聚合巩固了 U-Net,并引入和语义空间的和弦进行矩阵作为条件信息以提高旋律和谐。我们的方法在音乐质量、文本相关性和和谐度方面明显优于现有系统。
Aug, 2023
通过输入的文本提示,我们提出了一种名为 PPAE 的新颖方法,它作为扩散模型的通用模块,实现了精确的音频编辑,通过扩散模型的交叉注意力图来促进准确的局部编辑,并采用分层的局部 - 全局流程确保更流畅的编辑过程,实验证明了我们方法在各种编辑任务中的有效性。
May, 2024
我们提出了一种新颖的可控制系统,用于生成与任意输入音轨相匹配的单音轨,核心是音频自编码器有效地压缩音频波形样本成可逆的潜在表示,并且条件化的潜在扩散模型以输入音轨的潜在编码生成对应音轨的潜在编码,为了提供对生成样本音色的控制,我们引入了一种在扩散采样期间将潜在空间与用户提供的参考样式进行关联的技术,为了进一步提高音频质量,我们使用无分类器引导的方法避免在生成无界潜在空间时出现失真,我们使用配对的音轨混合组成的数据集对模型进行训练,定量实验证明,给定输入音轨,所提出的系统能够生成用户指定音色的低音线,我们的可控条件音频生成框架在帮助音乐制作方面迈出了重要的一步。
Feb, 2024
本论文提出了一种新方法,利用文本 - 图像生成中训练的潜在扩散模型,生成基于音频记录的图像。该方法使用预训练的音频编码模型将音频编码成新令牌,这可以被视为音频和文本表示之间的自适应层。结果表明,相较于基准方法,该方法在客观和主观度量方面表现优异。
May, 2023
通过潜在扩散模型和对比学习,我们提出了一种用于音频 - 视觉分割的模型,以深入探究音频的贡献。我们将音频视为有条件生成任务,其中音频被定义为声音生成器分割的条件变量。我们的潜在扩散模型通过对地面真实分割地图的条件生成过程进行学习,确保了音频与最终分割地图的相关性。对比学习使我们的模型学习音频 - 视觉对应关系,并最大化模型预测和音频数据之间的互信息,从而明确地增加音频对音频 - 视觉分割的贡献。实验结果验证了我们解决方案的有效性。
Jul, 2023
本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器,通过使用基于声音压力级的声音混合来进行训练集增强,从而取得了比 AudioLDM 更好的结果,成为了生成文字描述音频的任务中的最佳选择。
Apr, 2023
介绍了基于深度生成模型的音乐生成方法 Diff-A-Riff,可通过音频参考、文本提示或两者控制,生成适应任何音乐背景的高质量器乐伴奏,并在 48kHz 伪立体声音频的基础上显著减少推断时间和内存使用。
Jun, 2024
本研究提出了一种基于扩散模型的 Foley 声音生成系统,该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习,将该模型初始化地进行了预训练,以缓解数据不足问题。实验结果表明,该方法显着提高了声音生成性能,使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。
Jun, 2023