多语音识别中的代码切换适配器适应

Oct, 2023

多语音识别中的代码切换适配器适应

Adapting the adapters for code-switching in multilingual ASR

Atharva Kulkarni, Ajinkya Kulkarni, Miguel Couceiro, Hanan Aldarmaki

TL;DR本文提出了在代码转换的语音中有效地微调大型预训练多语言语音模型的方法，并将代码转换建模为一系列潜在的二进制序列，以引导每个语言适配器在帧级别上的信息流，通过在阿拉伯语、普通话和印地语等多种语言与英语配对的数据集上的评估，显示出代码转换性能的持续改进，至少可以将语音识别错误率 (CER) 降低 10％。

Abstract

Recently, large pre-trained multilingual speech models have shown potential in scaling automatic speech recognition (ASR) to many low-resource languages. Some of these models employ →

pre-trained multilingual speech models automatic speech recognition language adapters code-switched speech cer reduction

发现论文，激发创造

用合成的混合语文本生成优化双语神经转换器

本研究探讨了如何针对混杂语音优化基于神经传递器的双语自动语音识别系统，发现半监督训练和合成的混合开关数据可以改善这一系统的性能。同时，我们分析了每个神经传递器编码器对混合开关性能的影响，并在 ASCEND 数据集上评估了我们的英语 / 普通话系统，其混合错误率为 25％，较文献节省 2.1％，同时保持好的单语测试集准确性。

Oct, 2022

端到端的混合语言模型用于自动语音识别

本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法，以及探索从 ASR 模型中提取混合文本的不同方法，并通过比较混杂度和其他不同指标（如 WER）的结果与标准的双语文本输出来说明模型的稳健性。

Jun, 2020

利用单语数据源训练双语和混码语音识别模型

本文介绍了一种新的聚合分词器方法，用于训练双语和混合语音自动语音识别模型，从而消除了获得语料库的限制，并演示了这种方法的有效性。

Jun, 2023

适用于印度语的代码转换和混合语音识别

本研究通过比较使用多语种和单语种模型进行语音识别的表现，提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术，取得了印度诸多语言语音识别的较好效果。

Mar, 2022

低资源方言阿拉伯语 - 英语代码切换语音语音识别系统研究

本研究使用基于 DNN 的混合和 Transformer 的端到端模型构建自动语音识别系统并通过构建系统集成方法来提高识别率，结果表明两种模型相互补充且识别性能都不错。

Aug, 2021

一个模型统治所有：方言码转换阿拉伯语自动语音识别的多语言策略

本研究采用自注意力机制，设计了一个大型的多语言端到端语音识别系统，使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现，并与当前最先进的系统进行了比较。结果表明，我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。

May, 2021

低资源印度语言中语音识别模型的调整

通过利用语音和文本资源采用适应和微调技术，提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别（ASR）性能，并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。

Jul, 2023

语言建模用于代码交替：评估、整合单语数据和判别式训练

本文研究语言建模在代表代码切换语言的语境下在自动语音识别（ASR）中所存在的难题，针对三个难点分别提出解决方案：如何从缺乏大规模训练数据、ASR 系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷，我们构建了一个独立于 ASR 系统和词汇选择的评估数据集和评估方式，并采用一种判别式训练方法，证明其比生成式更加有效。最后，我们探索了多种训练协议，并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。

Oct, 2018

双语模型用于混合语言语音识别

本文提出了一种针对双语混杂文本的语言模型的新方法，即双语言模型，该方法使用单一语言模型的结构来改进标准的双语言模型，并将两个互补的单一语言模型结合在一起，以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性，并证明了我们的模型的鲁棒性，表明在不使用任何外部信息的情况下，在困惑度措施和自动语音识别错误率方面都会显著提高。

Nov, 2017

面向低资源多语言语音识别的自适应激活网络

本篇论文提出了一种适应性激活网络，用于深度学习 ASR 模型的上层，并将不同的激活函数应用于不同的语言，通过交叉语言学习和多语言学习优化模型，达到了在 IARPA Babel 数据集上超越传统的基于瓶颈特征和从头训练两种方法的效果提升，结合交叉语言学习和多语言学习可以进一步提高多语言语音识别的性能。

May, 2022