学习噪声不变表示以实现稳健语音识别

Jul, 2018

学习噪声不变表示以实现稳健语音识别

Learning Noise-Invariant Representations for Robust Speech Recognition

Davis Liang, Zhiheng Huang, Zachary C. Lipton

TL;DR本文提出了一种建议将干净示例和其表面扰动的对应物不仅映射到相同类别，而且映射到相同表示的不变表示学习（IRL）方法，该方法通过数据扩充有效地减少字符错误率，特别是在不同于训练期间所见的若干场景上。

Abstract

Despite rapid advances in speech recognition, current models remain brittle to superficial perturbations to their inputs. Small amounts of noise can destroy the performance of an otherwise state-of-the-art model. To harden models against background noise, practitioners often perform

发现论文，激发创造

学习不变的语音表征

本论文探讨了如何利用无监督的声学特征来增强语音识别，其中，通过学习始终对某些变换和变形不变的音频信号表示，实现了对短小的语音样本的有效处理，从而极大地提升了元音分类的准确性并降低了样本复杂性。

Jun, 2014

噪声语音识别的不变表示

本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示，以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性，尤其适用于仅针对少量噪声类别进行训练的情况。

Nov, 2016

通过大规模训练实现领域不变语音识别

本研究旨在探讨利用不同应用范畴的大规模培训数据，构建单一领域不变模型的想法，以达到普适性应用并允许快速自适应，并通过实验证明培训模型的可行性和适应性。

Aug, 2018

基于声音定位的词嵌入用于提高声学到词语语音识别

通过将最终的 AWE 识别器的 pre-softmax 权重矩阵视为词嵌入向量矩阵，并利用外部训练的词嵌入向量来改善其质量，我们提出了两种思路：（1）在训练中在外部嵌入向量与识别器权重之间强制相似性，（2）在测试时使用词嵌入向量预测生僻词以提高直接声学到单词的性能。

Mar, 2019

学习稳健且多语言的语音表征

本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现，通过使用多样性和嘈杂的语音数据学习表示，并在多个语言中验证其鲁棒性和可迁移性。结果显示，该方法相比基线特征集在跨域转移和25种不同语言的语音识别上均有显著提升。

Jan, 2020

自动语音识别端到端神经模型的鲁棒性分析

本文研究了预训练神经模型在自动语音识别中的鲁棒性，并对wav2vec2，HuBERT和DistilHuBERT进行了鲁棒性分析，发现它们在LibriSpeech和TIMIT数据集上对噪声的鲁棒性不同，同时进行了层次分析以预测每层的学习，通过误差传播和对比清晰和嘈杂的数据，验证了Pasad等人的预测，并提出未来研究的有趣方向。

Aug, 2022

朝向解缠语音表示

本研究构建了一种联合建模的声学表征学习任务，强调去耦合（disentanglement）声音信号的相关和无关部分，然后证明这些理想的、去耦合的方案具有独特的统计性质，并在训练期间强制执行这些性质，使平均 WER 相对提高了 24.5％，这提出了一种新的有效的音频表示的学习方法。

Aug, 2022

无监督口音领域自适应学习不变表示和风险最小化

本文探讨通过将语音表征映射到对应的高级语言信息以学习领域不变的语音表征，结果证明，学习到的latents 不仅捕捉到每个音素的发音特征，而且提高了适应能力，在accened测试基准上大幅优于基准模型。

Oct, 2022

评估无监督语音表示中的上下文不变性

本文介绍了语音或文本的不变性对于理解语言至关重要，提出了一种新的ZeroSpeech ABX基准测试方法来测试表示的上下文独立性，并建议将重点放在改善自监督和无监督表示的上下文独立性上。

Oct, 2022

统一语音识别：一种用于听觉、视觉和视听输入的单一模型

本研究解决了以往听觉、视觉和视听语音识别（ASR、VSR和AVSR）研究独立进行的问题，提出了一种统一的训练策略来应对性能不均衡和冗余性的挑战。通过引入一种贪婪伪标签的方法，充分利用未标记样本，提高模型的性能，最终在多个数据集上达到了最新的技术水平。

Nov, 2024