神经网络语音分离模型训练中的数据采样策略
本文介绍了一种基于 Transformers、无 RNN 结构的深度神经网络,即 SepFormer,并运用多尺度方法使其实现短时和长时依赖性的学习,从而在语音分离任务中取得了最优结果,并具有较高的计算速度和较小的内存占用。
Oct, 2020
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音 / 非语音分离方面,长窗口的 STFT(25-50 毫秒)效果明显好于短窗口(2.5 毫秒),对于可学习的基础来说,短窗口(2.5 毫秒)一直是最佳选择。作者的最佳 方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019
本文探讨了如何扩大自监督学习(SSL)的规模,以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning,提出的模型在节省了 38% 计算成本的同时,相比于监督学习方法和基于 WavLM 的模型,在一些测试数据集上的单词错误率均有显著的改善。
Nov, 2022
该论文提出了一种使用教师 - 学生学习方法,采用逐层教学和目标偏移机制的超快速语音分离 Transformer 模型,相较于从头开始训练的小型 Transformer 模型,在 LibriCSS 数据集上,能够将语音分离的单词错误率(WER)降低 5% 以上,并利用更多的未标记语音数据实现超过 10% 的相对 WER 降低。
Apr, 2022
语音分离对于多说话者技术研究人员来说仍然是一个重要的课题。卷积增强变换器(conformers)在许多语音处理任务中表现良好,但在语音分离方面研究较少。最近的最新分离模型一直是时域音频分离网络(TasNets)。一些成功的模型利用了双路径(DP)网络,这些网络顺序处理本地和全局信息。时域 conformers(TD-Conformers)是 DP 方法的一种类似方式,它们也顺序处理本地和全局上下文,但时间复杂性函数不同。结果表明,在现实中较短的信号长度下,控制特征维度时 conformers 更有效。提出了子采样层以进一步提高计算效率。最佳的 TD-Conformer 在 WHAMR 和 WSJ0-2Mix 基准测试上分别实现了 14.6 dB 和 21.2 dB 的 SISDR 改进。
Oct, 2023
本文提出了一种名为 DPRNN 的新型深度循环神经网络机制,它通过将输入序列分成较小的块并迭代应用区域内和区域间操作来模拟极长序列。实验结果表明,在使用 DPRNN 和在时域中应用样本级建模的 TasNet 中,相对于之前的最佳系统,使用比原来小 20 倍的模型在 WSJ0-2mix 上实现了新的最先进性能。
Oct, 2019
通过研究分析训练数据中的采样率对移动设备处理限制中的轻量级高效深度神经网络 (DNNs) 的影响,研究发现采用 48kHz 的高采样率训练模型在降噪效果和音频质量上显著优于低采样率,同时也发现了与较高采样率相关的处理时间延长的折衷方案。未来研究将进一步优化模型的效率以及在移动设备上进行测试。
May, 2024
本文研究表明,基于自回归神经网络模型的最近的语音合成系统几乎可以生成与人类录音难以区分的语音。而这些模型需要大量的数据,本文证明可以用其他讲话者的数据弥补一个讲话者数据的不足。
Nov, 2018
本文比较了基于短时傅里叶变换和时间域音频分离网络的两种不同的语音增强算法在不同数据集上的效果,提出了利用问题无关语音编码器特征的基于 STFT 的语音增强算法,通过在 Voice Bank+DEMAND 数据集上的实验验证,证明了该方法的有效性并在 DNS Challenge 数据集上表现出色,同时也开源了低延迟版本的 TasNet 算法。
May, 2020
本文介绍了一种解决训练数据与测试数据相似度低导致模型泛化性能下降的方法:设计了一个基于 LibriSpeech 的语音混合数据集 LibriMix,证明使用 LibriMix 训练的深度学习模型,在各种条件下比使用 WHAM! 训练的模型表现更优,为实现更真实的对话场景语音分离进行了探索。
May, 2020