语言建模用于代码交替：评估、整合单语数据和判别式训练

EMNLPOct, 2018

语言建模用于代码交替：评估、整合单语数据和判别式训练

Language Modeling for Code-Switching: Evaluation, Integration of Monolingual Data, and Discriminative Training

Hila Gonen, Yoav Goldberg

TL;DR本文研究语言建模在代表代码切换语言的语境下在自动语音识别（ASR）中所存在的难题，针对三个难点分别提出解决方案：如何从缺乏大规模训练数据、ASR 系统中与语言建模相关的性能测试的实现方法以及基于生成式模型所存在的缺陷，我们构建了一个独立于 ASR 系统和词汇选择的评估数据集和评估方式，并采用一种判别式训练方法，证明其比生成式更加有效。最后，我们探索了多种训练协议，并验证了使用大量单语数据随后加上小量的代码切换数据来进行精调训练的可行性。

Abstract

We focus on the problem of language modeling for code-switched language, in the context of automatic speech recognition (asr). language modeling<

language modeling code-switching asr evaluation setup training protocols

发现论文，激发创造

利用单语数据源训练双语和混码语音识别模型

本文介绍了一种新的聚合分词器方法，用于训练双语和混合语音自动语音识别模型，从而消除了获得语料库的限制，并演示了这种方法的有效性。

Jun, 2023

端到端的混合语言模型用于自动语音识别

本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法，以及探索从 ASR 模型中提取混合文本的不同方法，并通过比较混杂度和其他不同指标（如 WER）的结果与标准的双语文本输出来说明模型的稳健性。

Jun, 2020

双语模型用于混合语言语音识别

本文提出了一种针对双语混杂文本的语言模型的新方法，即双语言模型，该方法使用单一语言模型的结构来改进标准的双语言模型，并将两个互补的单一语言模型结合在一起，以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性，并证明了我们的模型的鲁棒性，表明在不使用任何外部信息的情况下，在困惑度措施和自动语音识别错误率方面都会显著提高。

Nov, 2017

用合成的混合语文本生成优化双语神经转换器

本研究探讨了如何针对混杂语音优化基于神经传递器的双语自动语音识别系统，发现半监督训练和合成的混合开关数据可以改善这一系统的性能。同时，我们分析了每个神经传递器编码器对混合开关性能的影响，并在 ASCEND 数据集上评估了我们的英语 / 普通话系统，其混合错误率为 25％，较文献节省 2.1％，同时保持好的单语测试集准确性。

Oct, 2022

适用于印度语的代码转换和混合语音识别

本研究通过比较使用多语种和单语种模型进行语音识别的表现，提出了一种基于 wav2vec 2.0 的端到端多语种语音识别和混合语言识别技术，取得了印度诸多语言语音识别的较好效果。

Mar, 2022

多语音识别中的代码切换适配器适应

本文提出了在代码转换的语音中有效地微调大型预训练多语言语音模型的方法，并将代码转换建模为一系列潜在的二进制序列，以引导每个语言适配器在帧级别上的信息流，通过在阿拉伯语、普通话和印地语等多种语言与英语配对的数据集上的评估，显示出代码转换性能的持续改进，至少可以将语音识别错误率 (CER) 降低 10％。

Oct, 2023

使用神经合成数据的混合语言模型来处理句子间的平行语言切换

为了解决训练混合语言模型的困难，本研究提出了一种基于序列 - 序列模型及 copy 机制的新型训练方法，通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据，且无需对齐或分析，实现了良好的表现，并显著提高了末端自动语音识别。

Sep, 2019

使用语法感知多任务学习的代码切换语言建模

本研究提出了一种基于多任务学习的语言模型，其共享语言的语法表示，从而利用语言学信息并解决低资源数据问题，通过同时学习语言建模和语音标记来识别代码切换点的位置并改进下一个词的预测，实验表明该方法在 SEAME Phase I 和 Phase II 数据集上的困惑度分别提高了 9.7% 和 7.4%，优于基于标准 LSTM 的语言模型。

May, 2018

减少端到端语种混淆的自动语音识别

本文基于等价约束理论提出了一种语言相关的注意机制，将单语数据转化为多语数据应用于端到端的自动语音识别中，获得了相对误差减少 17.12% 的优异性能。

Jan, 2022

提升混合语言语音识别的声学和文本数据增强

本文提出了改进自动语音识别系统的语音和语言模型技术，用于混合语言 Frision 和 Dutch 广播语音的语音识别，通过训练包括单语及混合码的语音数据集，改善了模型效果并提高了混合语音自动识别性能。

Jul, 2018