神经音频编解码中的源解耦学习
本文介绍了一种实时音频变分自动编码器(RAVE),允许快速且高质量的音频波形合成,采用多频段分解处理原始波形。通过后训练分析潜在空间,实现重构保真度与表示紧凑性之间的直接控制。例如对于音质转换和信号压缩等应用,该模型相比于现有模型表现更优。
Nov, 2021
本研究构建了一种联合建模的声学表征学习任务,强调去耦合(disentanglement)声音信号的相关和无关部分,然后证明这些理想的、去耦合的方案具有独特的统计性质,并在训练期间强制执行这些性质,使平均 WER 相对提高了 24.5%,这提出了一种新的有效的音频表示的学习方法。
Aug, 2022
利用神经网络技术,提出了一种先进的实时高保真音频编解码器,其采用流式编解码器结构和量化的潜在空间,并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中,该方法在所有评估指标下均优于基线方法。
Oct, 2022
通过收集离散声学代码并进行微调,AudioFormer 对音频分类任务提出了一种学习音频特征表示的方法。采用已有的神经音频编解码模型,生成离散声学代码并利用它们来训练掩码语言模型,从而获取音频特征表示。此外,通过采用多正样本对比学习方法,实现了多个离散声学代码在同一音频输入中的联合表示学习。实验结果表明,与传统单模音频分类模型相比,AudioFormer 在多个数据集上取得了显著提升,在某些数据集上甚至超越了音频-视觉多模分类模型的性能。
Aug, 2023
混合经典数字信号处理/深度神经网络的方法用于源分离任务,通过设计合理的潜在空间,将单通道欠定的源分离问题转化为等效的多通道过定的问题,并使用变分块间分离表征混合信号,通过经典信号处理理论结果的启发,提出可靠性更强、过拟合风险降低的模型。
Feb, 2024
本文解决了解缠音频表示学习中基准数据的稀缺问题。我们介绍了SynTone,这是一个合成数据集,具有明确的基准解释因素,用于评估解缠技术。在SynTone上评估最先进的方法展示了它在方法评估中的实用性。我们的结果强调了音频解缠的优势和局限性,推动了未来的研究。
Feb, 2024
通过引入Gull,我们介绍了一种生成式多功能音频编解码器。Gull是一种通用的神经音频压缩和解压模型,可应用于广泛的任务和应用,如实时通信、音频超分辨率和编解码器语言模型。我们比较了Gull与现有的传统音频编解码器和神经音频编解码器,并展示了Gull在各种采样率、比特率和模型复杂度下在主观和客观评价指标上达到或超越了现有编解码器的性能。
Apr, 2024
通过在 NAC 的嵌入空间中进行音频编码器(Codec)的语音分离(SS)任务,我们提出了一种新的模型 Codecformer,在推断过程中实现了 52 倍的 MAC 降低,并且产生了与 Sepformer 云部署相当的分离性能,为在实际场景中实现高效的 SS 打开了新的方向。
Jun, 2024
本研究解决了现有生成模型在组合推理方面的不足,专注于针对音乐数据的完全无监督的组合表示学习。我们提出了一种灵活的自编码目标框架,结合扩散模型,显著提高音频源分离的效果,与其他盲源分离方法相比表现优越,并在信噪比指标上超过现有的有监督基线。
Aug, 2024