使用迁移学习和语言模型解码改进非母语英语的自动语音识别

Feb, 2022

使用迁移学习和语言模型解码改进非母语英语的自动语音识别

Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding

Peter Sullivan, Toshiko Shibano, Muhammad Abdul-Mageed

TL;DR在语音识别系统中，使用 native English 训练出的模型在非母语人士的语音识别上表现欠佳。因此，本文对 pre-trained wav2vec 2.0 模型进行多种 L1 和 L2 训练条件的 fine-turning，并引入语言模型解码技术。这两种方法的量化收益及误差分析为改进模型的不同来源提供了数据，并证明了 L2 语音中引入语言模型解码技术的实用性。

Abstract

asr systems designed for native English (L1) usually underperform on non-native English (L2). To address this performance gap, \textbf{(i)} we extend our previous work to investigate fine-tuning of a pre-trained

asr systems wav2vec 2.0 fine-tuning language model decoding l2 speech

发现论文，激发创造

利用语言模型提高印度语言的语音识别

本文探究了应用语言模型（LM）到印欧语系语言的自动语音识别（ASR）系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调，并进行结果调整。我们的研究结果显示，经过 LM 解码后，字符错误率（CER）平均降低了 28％以上，单词错误率（WER）平均降低了约 36％。文章还表明，与多样化的 LM 相比，大型 LM 可能不会带来更大的改进。此外，我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。

Mar, 2022

跨语言 monolingual wav2vec-2.0 的魔法尘

该研究提出了一种简单有效的跨语言转移学习方法，以适应资源匮乏语言的单语言 wav2vec-2.0 模型的自动语音识别（ASR），并通过使用目标语言中的一组适度大小的无标签语音数据集和几个 Dropout 不确定性驱动的自我训练（DUST）迭代进一步提高其性能。该调整后的 wav2vec-2.0 在目标语言 ASR 任务上达到了类似于训练了 53 种语言的顶级多语言 XLSR 模型的性能。

Oct, 2021

利用 wav2vec 2.0 进行 L2 口语英语的熟练度评估

本研究通过研究两个小数据集，其中一个是公开的，探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性，相对于基于 ASR 和手动转录训练的 BERT 基准系统，发现此方法有很大的提升。

Oct, 2022

Wav2Seq：使用伪语言预训练语音到文本编解码模型

Wav2Seq 是第一个用于预训练语音数据的自监督方法，采用了伪语言作为紧凑的离散表示，并制定了自监督伪语音识别任务 - 将音频输入转录为伪子词序列。

May, 2022

高效地融合预训练的声学和语言编码器用于低资源语音识别

该论文研究了如何将预训练声学编码器和预训练语言编码器融合到端到端自动语音识别模型中，以提高模型的性能，尤其是在低资源自动语音识别的情境下。实验证明，该方法比其他端到端模型在 15 小时的 CALLHOME 语料库上表现得更好。

Jan, 2021

通过多语言微调和持续预训练为新的欠资源语言调整多语音表示模型

本研究尝试将预训练的多语言 wav2vec 2.0 神经模型应用于研究极度濒危的阿伊努语，通过多语言微调和预训练对模型进行改进，结果显示继续预训练是适应新语言的最有效方法，并且利用类似语言的数据进行微调可以显著减少错误率。

Jan, 2023

用于口语识别的预训练方法：TalTech 在 OLR 2021 挑战赛中的提交

本文研究了口语语言识别的不同预训练方法，并基于我们在东方语言识别挑战赛 2021 中的提交，参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统，这些模型都包含有前置的预训练网络。

May, 2022

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

自监督语音表示模型的分层分析

本研究使用一套分析工具研究一款较新的波形自编码预训练语音表征模型，发现其中间表征向量所包含的声学信息和语言信息内容，并研究了自动语音识别（ASR）微调对这些观察结果产生的影响，为此提出了一个修改方案，并证明其在低资源设置中提高了单词错误率的表现。

Jul, 2021

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022