低资源端到端口音语音识别的多遍训练和交叉信息融合

Jun, 2023

低资源端到端口音语音识别的多遍训练和交叉信息融合

Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition

Xuefei Wang, Yanhua Long, Yijie Li, Haoran Wei

TL;DR本研究提出了一种基于 Conformer 的架构，即 Aformer，利用大型非方言和有限口音训练数据从声学信息中提取互补的音频信息，并提出了多通道训练和三种跨信息融合方法，用于从 Aformer 的通用编码器和口音编码器中有效地融合信息，实验结果表明，该方法在口音英语和普通话 ASR 任务上相对于强基线 Conformer 的 6 个领域内外测试数据的单词 / 字符错误率降低了 10.2％到 24.5％。

Abstract

low-resource accented speech recognition is one of the important challenges faced by current ASR technology in practical applications. In this study, we propose a →

low-resource accented speech recognition conformer-based architecture multi-pass training cross-information fusion

发现论文，激发创造

基于两次解码和交叉自适应的端到端 Conformer 和混合 TDNN ASR 系统的系统组合

本文研究了多通道重评分和基于交叉适配的混合 TDNN 和 Conformer E2E ASR 系统的组合方法，并在 Switchboard 语料库上进行了实验，结果表明使用两种组合方法得到的组合系统胜过单个系统，其中使用多通道重评分得到的最佳组合系统在 NIST Hub5'00，Rt03 和 Rt02 的评估数据上相对于独立的 Conformer 系统实现了 2.5％到 3.9％的绝对（22.5% 到 28.9% 相对）的单词错误率（WER）降低。

Jun, 2022

跨口音语音识别上的快速适应学习

研究了方言对同一语言单词发音的影响，提出了一种基于模型对抗元学习算法的跨方言英语语音识别任务，通过实验表明该方法显著优于联合训练。

Mar, 2020

用于自动语音识别的合成跨口音数据增强

本研究旨在改进口音转换模型，通过加入声学知识，提高模型对不同口音发音的准确性，采用生成数据训练 ASR 系统，实验结果表明，合成带有口音的数据有助于提高 ASR 系统对已见口音的语音理解，但不能推广到未见口音及纯母语模型上。

Mar, 2023

Speechformer：减少直接语音翻译中的信息损失

提出了 Speechformer 的架构，该架构通过减少注意层中的内存使用，避免了初始的失真压缩，并根据更具信息的语言标准仅在较高级别上聚合信息，该架构在三种语言对 (en->de/es/nl) 上的实验表明了其有效性。

Sep, 2021

高效地融合预训练的声学和语言编码器用于低资源语音识别

该论文研究了如何将预训练声学编码器和预训练语言编码器融合到端到端自动语音识别模型中，以提高模型的性能，尤其是在低资源自动语音识别的情境下。实验证明，该方法比其他端到端模型在 15 小时的 CALLHOME 语料库上表现得更好。

Jan, 2021

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

从英语到更多语言：参数高效的模型重编程用于跨语言语音识别

使用神经模型重编程的参数高效学习框架，可在跨语音识别中重新利用训练良好的英文自动语音识别模型，实现大规模预训练 ASR 成功，提高了训练效率。

Jan, 2023

地理区域近似场景下的低资源口音分类：法庭和社会语音学视角

本文探讨了不同语音机器学习模型及分类器在地方口音识别方面的应用，发现传统方法的性能也值得关注，并证实了一种新方法测量社会语音变化。

Jun, 2022

多领域训练提高口音语音识别

本文致力于提高自动语音识别系统的准确性与泛化能力，运用多种口音以构建微调数据集用以提高模型的鲁棒性，同时展示多领域数据集优化效果。

Mar, 2023

带有特定口音码书的口音识别

通过使用可训练的码书的交叉注意力，我们提出了一种针对终端到终端自动语音识别系统的新型口音适应方法，该方法可以捕捉特定口音的信息，并在 ASR 编码器层中进行集成。我们在包含未在训练过程中见过的口音的测试数据上进行训练，结果显示我们的方法不仅在已知的英语口音上获得显著性能提升（词错误率相对改进高达 37%），还在未知口音上获得了最高 5% 的相对改进。同时，我们还在 L2Artic 数据集上展示了零 - shot 传输设置的优势，并与基于口音对抗训练的其他方法进行了性能比较。

Oct, 2023