学习噪声不变表示以实现稳健语音识别
本论文探讨了如何利用无监督的声学特征来增强语音识别,其中,通过学习始终对某些变换和变形不变的音频信号表示,实现了对短小的语音样本的有效处理,从而极大地提升了元音分类的准确性并降低了样本复杂性。
Jun, 2014
本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示,以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性,尤其适用于仅针对少量噪声类别进行训练的情况。
Nov, 2016
本研究旨在探讨利用不同应用范畴的大规模培训数据,构建单一领域不变模型的想法,以达到普适性应用并允许快速自适应,并通过实验证明培训模型的可行性和适应性。
Aug, 2018
通过将最终的 AWE 识别器的 pre-softmax 权重矩阵视为词嵌入向量矩阵,并利用外部训练的词嵌入向量来改善其质量,我们提出了两种思路:(1)在训练中在外部嵌入向量与识别器权重之间强制相似性,(2)在测试时使用词嵌入向量预测生僻词以提高直接声学到单词的性能。
Mar, 2019
本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现,通过使用多样性和嘈杂的语音数据学习表示,并在多个语言中验证其鲁棒性和可迁移性。结果显示,该方法相比基线特征集在跨域转移和25种不同语言的语音识别上均有显著提升。
Jan, 2020
本文研究了预训练神经模型在自动语音识别中的鲁棒性,并对wav2vec2,HuBERT和DistilHuBERT进行了鲁棒性分析,发现它们在LibriSpeech和TIMIT数据集上对噪声的鲁棒性不同,同时进行了层次分析以预测每层的学习,通过误差传播和对比清晰和嘈杂的数据,验证了Pasad等人的预测,并提出未来研究的有趣方向。
Aug, 2022
本研究构建了一种联合建模的声学表征学习任务,强调去耦合(disentanglement)声音信号的相关和无关部分,然后证明这些理想的、去耦合的方案具有独特的统计性质,并在训练期间强制执行这些性质,使平均 WER 相对提高了 24.5%,这提出了一种新的有效的音频表示的学习方法。
Aug, 2022
本文探讨通过将语音表征映射到对应的高级语言信息以学习领域不变的语音表征,结果证明,学习到的latents 不仅捕捉到每个音素的发音特征,而且提高了适应能力,在accened测试基准上大幅优于基准模型。
Oct, 2022
本文介绍了语音或文本的不变性对于理解语言至关重要,提出了一种新的ZeroSpeech ABX基准测试方法来测试表示的上下文独立性,并建议将重点放在改善自监督和无监督表示的上下文独立性上。
Oct, 2022
本研究解决了以往听觉、视觉和视听语音识别(ASR、VSR和AVSR)研究独立进行的问题,提出了一种统一的训练策略来应对性能不均衡和冗余性的挑战。通过引入一种贪婪伪标签的方法,充分利用未标记样本,提高模型的性能,最终在多个数据集上达到了最新的技术水平。
Nov, 2024