- 数据与转换器在音频生成中的驯化
我们提出了两种新模型 AutoCap 和 GenAu 来解决由于数据稀缺和标题质量不足造成的环境声音和效果生成问题,AutoCap 利用音频的元数据显著提高了标题的质量,而 GenAu 则通过使用新数据集进行训练,在生成的音频质量上取得了显 - Action2Sound: 环境感知的从自我为中心视频生成行动声音
提出了一种新颖的环境感知音频生成模型,用于根据视频内容生成符合语义和时间要求的音频;使用了特殊的音频条件机制,以在野外训练视频中学习将前景动作声音与环境背景声音解耦合。
- 深度学习音频生成方法概述
本文综述了音频生成中深度学习模型开发所使用的典型技术,包括音频表示、深度学习架构变体及其实际应用,以及常用的评估指标。该文章旨在为音频生成领域的初学者和新手提供对当前最先进的音频生成方法及相关研究的全面理解,以供未来研究探索。
- C3LLM: 使用大型语言模型的条件多模式内容生成
我们介绍了 C3LLM(Conditioned-on-Three-Modalities Large Language Models),它是一个新颖的框架,将视频到音频、音频到文本和文本到音频三个任务结合在一起。C3LLM 以大型语言模型(L - 使用序列到序列建模从静默视频合成音频
使用序列到序列模型和 3D 向量量化可变自编码器来从视频生成音频,以改进与音频视觉媒体的交互,包括 CCTV 镜头分析、历史视频恢复和视频生成模型。
- Tango 2:通过直接偏好优化对齐基于扩散的文本到音频生成
研究使用 diffusion-DPO(直接偏好优化)损失在偏好数据集上对 Tango 文本到音频模型进行微调,以改进音频生成性能,并且在自动和手动评估指标上显示出优于 Tango 和 AudioLDM2 的效果。
- EVA-GAN: 提升各种音频生成的可扩展生成对抗网络
通过扩展性生成对抗网络(EVA-GAN)以及使用大规模模型、高保真音频生成、领域外数据鲁棒性以及频谱与高频重建方面的显著改进,我们的工作能够通过采用 36000 小时的 44.1kHz 音频数据集、上下文感知模块和人在循环中的工件测量工具包 - FreGrad:轻量级高速频率感知扩散语音合成器
本文旨在使用一种轻量级和快速的扩散基声码器(FreGrad)生成逼真的音频。通过离散小波变换将复杂波形分解为子带小波,以帮助 FreGrad 在简单的特征空间上进行操作;设计了一种频率感知膨胀卷积,提高频率感知性,产生具有准确频率信息的语音 - 关于有条件音频生成中的开放提示挑战
通过使用指令调整模型改写提示文本并利用文本音频对齐作为反馈信号,通过边界排序学习从而改善音频的质量和文本音频的对齐,从客观和主观的人类评估中观察到了明显的改善。
- 扩散模型与指导梯度实现可控音乐制作
我们展示了如何从扩散模型中进行条件生成,以解决音乐制作中的各种现实任务,包括音乐音频的延续、修复和再生,不同音乐轨道之间的平滑过渡以及将样式特征传递给现有音频片段。
- VoiceLDM:具有环境上下文的文本转语音
VoiceLDM 是一个基于潜在扩散模型的文本到音频模型,通过结合描述提示和内容提示,能够生成与输入条件对齐的逼真音频,并展示了在语音智力测试集上甚至超过参考音频的结果,同时还探索了 VoiceLDM 的文本到语音和零样本文本到音频的能力。
- 通过表示相似性正则化增强音频生成可控性
该论文提出了一种创新的方法来增强对音频生成的控制,通过在模型训练期间强调音频和文本表示之间的对齐。实验结果表明,我们提出的方法在音频和音乐生成的客观指标以及人类感知方面都取得了提升。
- 音频 LDM 2:使用自监督预训练学习整体音频生成
该研究提出了一个框架,使用相同的学习方法进行语音、音乐和音效生成,引入了一种名为 “语言音频(LOA)” 的音频通用表示,并通过 AudioMAE 和潜在扩散模型进行自监督训练,实现了在文本到音频、文本到音乐和文本到语音等任务上的最先进性能 - 原始音乐生成的渐进蒸馏扩散
应用一种新的深度学习方法来生成原始音频文件,并使用 1D U-Net 的渐进蒸馏扩散模型实现无条件音乐生成,并比较不同扩散参数的价值和实现。
- 通过近端初始化实现扩散模型的高效成员推断攻击
本文研究了扩散模型在音频生成等任务中的隐私问题,并提出了一种查询式基础的成员推断攻击 (MIA),即近端初始化攻击 (PIA),它利用在 t=0 时初始化的 ε 和预测点得到的 groundtruth 轨迹来推断成员。通过实验结果表明,该方 - SoundStorm: 高效并行音频生成
SoundStorm is a non-autoregressive audio generation model that uses semantic tokens and bidirectional attention to effic - ArchiSound: 漫射生成音频
该论文研究了扩散模型在音频生成方面的应用,提出了多种模型来满足音频生成的多方面需求,并通过简化工具库加速实时推理。
- SingSong: 从歌唱中生成音乐伴奏
SingSong 是一种使用声音输入生成背景音乐的系统,通过应用最新的音源分离和音频生成算法,实现无条件音频生成,与强检索基线相比,生成的配乐受到听众的青睐。
- 保留语音特征的零 - shot 多音系转换
研究使用对抗学习来实现口音转换,能够将说话者的声音身份保留下来,并可将未知说话者的话语转换为多种口音,主观评估显示该模型生成更接近目标口音且类似于原说话者的音频。
- ICLRAudioGen: 基于文本指导的音频生成
本文提出了一种基于文本输入生成音频的生成模型,使用数据增强技术和多流建模来减轻音频生成中的诸多挑战,包括文本注释的稀缺性、高保真音频编码和多个音频源的难以分辨等,并实现了比其他基准模型更好的音频生成效果。