使用双重 RNN 和相同源预训练的代码交换语言模型
本文提出了一种针对双语混杂文本的语言模型的新方法,即双语言模型,该方法使用单一语言模型的结构来改进标准的双语言模型,并将两个互补的单一语言模型结合在一起,以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性,并证明了我们的模型的鲁棒性,表明在不使用任何外部信息的情况下,在困惑度措施和自动语音识别错误率方面都会显著提高。
Nov, 2017
本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究,揭示了预训练语言模型在泛化到混合语言文本上的有效性,从而为这些模型在处理混合语言资源方面的能力提供了洞察。
Mar, 2024
为了解决训练混合语言模型的困难,本研究提出了一种基于序列 - 序列模型及 copy 机制的新型训练方法,通过有限的混合语言数据和单语数据的并行翻译生成需要的混合语言数据,且无需对齐或分析,实现了良好的表现,并显著提高了末端自动语音识别。
Sep, 2019
本文利用深度双向语言模型如 BERT 和其他机器翻译模型提出了一种提取单语文本的方法,以及探索从 ASR 模型中提取混合文本的不同方法,并通过比较混杂度和其他不同指标(如 WER)的结果与标准的双语文本输出来说明模型的稳健性。
Jun, 2020
本研究提出了一种基于多任务学习的语言模型,其共享语言的语法表示,从而利用语言学信息并解决低资源数据问题,通过同时学习语言建模和语音标记来识别代码切换点的位置并改进下一个词的预测,实验表明该方法在 SEAME Phase I 和 Phase II 数据集上的困惑度分别提高了 9.7% 和 7.4%,优于基于标准 LSTM 的语言模型。
May, 2018
提出了一种新的预训练方法 Code-Switching Pre-training(CSP),它通过利用源语言和目标语言之间的跨语言对齐信息来预先训练神经机器翻译模型,该方法通过无监督的词嵌入映射词典识别源语言和目标语言之间的单词替换,克服了传统模型的随机屏蔽单词的缺点。实验结果表明,该方法在无监督和有监督的机器翻译任务上都取得了显著提高。
Sep, 2020
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
本文研究如何用神经机器翻译模型生成印地语 - 英语混合语种句子。通过预训练和使用合成数据来提高模型性能,生成的文本可用于数据增强,提高了语言模型任务和自然语言推理任务的性能,人工评估和客观指标的结果展现出了接近或优于印地语为母语的人群工作者生成的混合语种文本。
Jul, 2021
引入了一种新型的变分自编码器 (VACS),专门针对混合语言现象,利用合成的混合语料库来提高自然语言处理任务的表现,结果表明使用合成的混合语料库与自然的单语库相比,生成的模型可以显著地减少困惑度 (33.06%)。
Jun, 2019
本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型(multilingual Seq2Seq PLMs) 的性能的方法,实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART,可以缩小跨语言句子表示的欧几里得距离,并且在计算成本方面没有太多的增加。
Apr, 2022