使用双重 RNN 和相同源预训练的代码交换语言模型

EMNLPSep, 2018

使用双重 RNN 和相同源预训练的代码交换语言模型

Code-switched Language Models Using Dual RNNs and Same-Source Pretraining

Saurabh Garg, Tanmay Parekh, Preethi Jyothi

TL;DR该研究通过两种技术改善了代码混合文本的语言模型，提出了一个创新的循环神经网络单元和通过生成模型合成文本进行预训练的方法，实验结果显示，在汉英任务中我们的方法显著降低了困惑度。

Abstract

This work focuses on building language models (LMs) for code-switched text. We propose two techniques that significantly improve these LMs: 1) A novel →

language models code-switched text recurrent neural network pretraining generative model

发现论文，激发创造

双语模型用于混合语言语音识别

本文提出了一种针对双语混杂文本的语言模型的新方法，即双语言模型，该方法使用单一语言模型的结构来改进标准的双语言模型，并将两个互补的单一语言模型结合在一起，以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性，并证明了我们的模型的鲁棒性，表明在不使用任何外部信息的情况下，在困惑度措施和自动语音识别错误率方面都会显著提高。

Nov, 2017

混码探针展示预训练模型如何在混码文本上泛化

本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究，揭示了预训练语言模型在泛化到混合语言文本上的有效性，从而为这些模型在处理混合语言资源方面的能力提供了洞察。

Mar, 2024

使用神经合成数据的混合语言模型来处理句子间的平行语言切换

为了解决训练混合语言模型的困难，本研究提出了一种基于序列 - 序列模型及 copy 机制的新型训练方法，通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据，且无需对齐或分析，实现了良好的表现，并显著提高了末端自动语音识别。

Sep, 2019

端到端的混合语言模型用于自动语音识别

本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法，以及探索从 ASR 模型中提取混合文本的不同方法，并通过比较混杂度和其他不同指标（如 WER）的结果与标准的双语文本输出来说明模型的稳健性。

Jun, 2020

使用语法感知多任务学习的代码切换语言建模

本研究提出了一种基于多任务学习的语言模型，其共享语言的语法表示，从而利用语言学信息并解决低资源数据问题，通过同时学习语言建模和语音标记来识别代码切换点的位置并改进下一个词的预测，实验表明该方法在 SEAME Phase I 和 Phase II 数据集上的困惑度分别提高了 9.7% 和 7.4%，优于基于标准 LSTM 的语言模型。

May, 2018

神经机器翻译的代码切换预训练

提出了一种新的预训练方法 Code-Switching Pre-training（CSP），它通过利用源语言和目标语言之间的跨语言对齐信息来预先训练神经机器翻译模型，该方法通过无监督的词嵌入映射词典识别源语言和目标语言之间的单词替换，克服了传统模型的随机屏蔽单词的缺点。实验结果表明，该方法在无监督和有监督的机器翻译任务上都取得了显著提高。

Sep, 2020

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

从机器翻译到代码转换：生成高质量的混合语言文本

本文研究如何用神经机器翻译模型生成印地语 - 英语混合语种句子。通过预训练和使用合成数据来提高模型性能，生成的文本可用于数据增强，提高了语言模型任务和自然语言推理任务的性能，人工评估和客观指标的结果展现出了接近或优于印地语为母语的人群工作者生成的混合语种文本。

Jul, 2021

代码交替文本的深度生成模型

引入了一种新型的变分自编码器 (VACS)，专门针对混合语言现象，利用合成的混合语料库来提高自然语言处理任务的表现，结果表明使用合成的混合语料库与自然的单语库相比，生成的模型可以显著地减少困惑度 (33.06%)。

Jun, 2019

利用多语言序列到序列预训练技术在文本生成与理解中弥合跨语言差距

本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型（multilingual Seq2Seq PLMs) 的性能的方法，实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART，可以缩小跨语言句子表示的欧几里得距离，并且在计算成本方面没有太多的增加。

Apr, 2022