神经音频编解码中的源解耦学习

Sep, 2024

Learning Source Disentanglement in Neural Audio Codec

Xiaoyu Bie, Xubo Liu, Gaël Richard

TL;DR本研究解决了现有神经音频编解码模型在处理不同音频域（如语音、音乐和环境声音）时的不足。提出的源解耦神经音频编解码器（SD-Codec）通过联合学习音频重合成和源分离，将不同域的音频信号明确地分配到不同的代码库中。实验结果表明，SD-Codec在保持竞争性的重合成质量的同时，成功实现了潜在空间中不同源的解耦，从而提升了音频编解码的可解释性，并提供了更细致的音频生成控制能力。

Abstract

Neural audio codecs have significantly advanced audio compression by efficiently converting continuous audio signals into discrete tokens. These codecs preserve high-quality sound and enable sophisticated sound generation through generative models trained on these tokens. However, existing neural codec models are typically trained on large, undifferentiated

发现论文，激发创造

零样本音乐源分离、转录和合成的统一模型

通过一个三合一的统一模型来对音频进行分离、转录和综合，采用一种pitch-timbre分离模块来更好地计算音源之间的关系，从而实现零样本学习。

Aug, 2021

RAVE: 一种快速高质量神经音频合成的变分自编码器

本文介绍了一种实时音频变分自动编码器(RAVE)，允许快速且高质量的音频波形合成，采用多频段分解处理原始波形。通过后训练分析潜在空间，实现重构保真度与表示紧凑性之间的直接控制。例如对于音质转换和信号压缩等应用，该模型相比于现有模型表现更优。

Nov, 2021

朝向解缠语音表示

本研究构建了一种联合建模的声学表征学习任务，强调去耦合（disentanglement）声音信号的相关和无关部分，然后证明这些理想的、去耦合的方案具有独特的统计性质，并在训练期间强制执行这些性质，使平均 WER 相对提高了 24.5％，这提出了一种新的有效的音频表示的学习方法。

Aug, 2022

高保真神经音频压缩

利用神经网络技术，提出了一种先进的实时高保真音频编解码器，其采用流式编解码器结构和量化的潜在空间，并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中，该方法在所有评估指标下均优于基线方法。

Oct, 2022

AudioFormer: 从离散声学编码中学习音频特征表示的音频Transformer

通过收集离散声学代码并进行微调，AudioFormer 对音频分类任务提出了一种学习音频特征表示的方法。采用已有的神经音频编解码模型，生成离散声学代码并利用它们来训练掩码语言模型，从而获取音频特征表示。此外，通过采用多正样本对比学习方法，实现了多个离散声学代码在同一音频输入中的联合表示学习。实验结果表明，与传统单模音频分类模型相比，AudioFormer 在多个数据集上取得了显著提升，在某些数据集上甚至超越了音频-视觉多模分类模型的性能。

Aug, 2023

音源分离基于潜在变分分块解缠

混合经典数字信号处理/深度神经网络的方法用于源分离任务，通过设计合理的潜在空间，将单通道欠定的源分离问题转化为等效的多通道过定的问题，并使用变分块间分离表征混合信号，通过经典信号处理理论结果的启发，提出可靠性更强、过拟合风险降低的模型。

Feb, 2024

通过受控合成学习解耦的音频表征

本文解决了解缠音频表示学习中基准数据的稀缺问题。我们介绍了SynTone，这是一个合成数据集，具有明确的基准解释因素，用于评估解缠技术。在SynTone上评估最先进的方法展示了它在方法评估中的实用性。我们的结果强调了音频解缠的优势和局限性，推动了未来的研究。

Feb, 2024

Gull：一种生成式多功能音频编解码器

通过引入Gull，我们介绍了一种生成式多功能音频编解码器。Gull是一种通用的神经音频压缩和解压模型，可应用于广泛的任务和应用，如实时通信、音频超分辨率和编解码器语言模型。我们比较了Gull与现有的传统音频编解码器和神经音频编解码器，并展示了Gull在各种采样率、比特率和模型复杂度下在主观和客观评价指标上达到或超越了现有编解码器的性能。

Apr, 2024

基于音频编解码的语音分离

通过在 NAC 的嵌入空间中进行音频编码器（Codec）的语音分离（SS）任务，我们提出了一种新的模型 Codecformer，在推断过程中实现了 52 倍的 MAC 降低，并且产生了与 Sepformer 云部署相当的分离性能，为在实际场景中实现高效的 SS 打开了新的方向。

Jun, 2024

无监督音频可组合表示

本研究解决了现有生成模型在组合推理方面的不足，专注于针对音乐数据的完全无监督的组合表示学习。我们提出了一种灵活的自编码目标框架，结合扩散模型，显著提高音频源分离的效果，与其他盲源分离方法相比表现优越，并在信噪比指标上超过现有的有监督基线。

Aug, 2024