噪声语音识别的不变表示
本文探讨了对抗训练在自动语音识别中应用的有效性,在使用 Domain Adversarial Neural Networks (DANNs) 在多个数据集上的实验结果表明,对抗训练能够有效地进行无监督领域自适应,从而强调了 DANNs 从原始语音学习领域不变特征的能力。
May, 2018
本文提出了一种建议将干净示例和其表面扰动的对应物不仅映射到相同类别,而且映射到相同表示的不变表示学习(IRL)方法,该方法通过数据扩充有效地减少字符错误率,特别是在不同于训练期间所见的若干场景上。
Jul, 2018
本文提出了一种高效的噪声语音情感识别(NSER)方法,通过采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息,以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明,该方法在 NSER 性能上优于传统的噪声减少方法,胜过自监督学习方法,并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。
Nov, 2023
本论文探讨了如何利用无监督的声学特征来增强语音识别,其中,通过学习始终对某些变换和变形不变的音频信号表示,实现了对短小的语音样本的有效处理,从而极大地提升了元音分类的准确性并降低了样本复杂性。
Jun, 2014
本文探讨通过将语音表征映射到对应的高级语言信息以学习领域不变的语音表征,结果证明,学习到的 latents 不仅捕捉到每个音素的发音特征,而且提高了适应能力,在 accened 测试基准上大幅优于基准模型。
Oct, 2022
本文提出了一种利用生成对抗网络(GAN)优化端到端框架,实现鲁棒语音识别的方法,该方法能够使编码器具有改进的不变性,而不需要依赖于专业知识或简化假设,并通过数据驱动的方式,直接提高模型的鲁棒性,从而提高了模型的远场语音识别能力。
Nov, 2017
本文旨在研究自动语音识别中隐私保护的问题,提出了利用深度编码器 - 解码器架构中的预训练技术来保护说话人身份,通过对开放和封闭说话人集的说话人识别和验证实验,论证了对抗训练架构可以显著减少封闭集的分类精度,提高个人隐私保护的效果。
Nov, 2019
本文提出了一种新颖的无监督自回归神经模型,用于学习通用的语音表示,通过无需音素或单词边界标签的方法,从大量未标记数据中学习。我们的模型的语音表示显著提高了电话分类和说话人验证的性能,并且我们的分析表明,不同级别的语音信息由我们的模型在不同层次上捕获。
Apr, 2019
本文提出了一种基于对抗网络的方法(MIR-GAN),旨在跨模态学习共享的表征,以减轻后续的多模态融合过程,并在公共基准 LRS3 和 LRS2 上得到了比现有技术更好的表现。
Jun, 2023