基于音频编解码的语音分离
本文探讨了如何扩大自监督学习(SSL)的规模,以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning,提出的模型在节省了 38% 计算成本的同时,相比于监督学习方法和基于 WavLM 的模型,在一些测试数据集上的单词错误率均有显著的改善。
Nov, 2022
本文针对多说话人环境下的鲁棒语音处理,提出了使用时域音频分离网络 (TasNet) 直接对信号进行建模,通过编码器输出估计源掩码、并经过解码器进行合成的方法,该方法适用于实时应用,并能在低功耗情况下完成语音分离任务,是当前最先进的语音分离算法之一。
Nov, 2017
提出了一种基于神经状态空间模型的高效音频分离框架 S4M,该模型可以将输入信号建模为线性常微分方程的形式,并在多尺度表示学习中学习全局一致的分离和重构,其模型复杂度显著低于 Attention-based Sepformer。
May, 2023
研究使用对比学习建立框架的表示,并使用学到的表示在下游深度模块化任务中,自监督学习以最小化属于给定说话者的框架之间的距离,以进行语音分离。通过 WSJ0-2mix 和 WSJ0-3mix 的评估,该技术的性能不会随着说话者数量的增加而显着降低。
May, 2023
本文介绍了一种基于 Transformers、无 RNN 结构的深度神经网络,即 SepFormer,并运用多尺度方法使其实现短时和长时依赖性的学习,从而在语音分离任务中取得了最优结果,并具有较高的计算速度和较小的内存占用。
Oct, 2020
利用神经网络技术,提出了一种先进的实时高保真音频编解码器,其采用流式编解码器结构和量化的潜在空间,并引入了一种新型损失平衡机制和轻量级 Transformer 模型用于压缩。在语音、噪声回声语音和音乐等多个音频领域测试中,该方法在所有评估指标下均优于基线方法。
Oct, 2022
本文研究使用 Transformer 和 Conformer 代替递归神经网络在语音分离领域中来提取单个说话者的混合语音,以连续语音分离为主要研究方向,通过在 LibriCSS 数据集上的实验,证明所提模型在语音分离任务中具有最优表现。
Aug, 2020
深度学习在语音分离方面的应用及其对多说话人语音识别的整合进行了深入研究,并提出了一种通过复杂谱映射和自监督学习表示进行的训练策略,从而在噪声和混响环境下显著提升多说话人语音识别性能。
Jul, 2023
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音 / 非语音分离方面,长窗口的 STFT(25-50 毫秒)效果明显好于短窗口(2.5 毫秒),对于可学习的基础来说,短窗口(2.5 毫秒)一直是最佳选择。作者的最佳 方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019
通过收集离散声学代码并进行微调,AudioFormer 对音频分类任务提出了一种学习音频特征表示的方法。采用已有的神经音频编解码模型,生成离散声学代码并利用它们来训练掩码语言模型,从而获取音频特征表示。此外,通过采用多正样本对比学习方法,实现了多个离散声学代码在同一音频输入中的联合表示学习。实验结果表明,与传统单模音频分类模型相比,AudioFormer 在多个数据集上取得了显著提升,在某些数据集上甚至超越了音频 - 视觉多模分类模型的性能。
Aug, 2023