MixMT 2022 的混合语机器翻译领域课程

EMNLPOct, 2022

MixMT 2022 的混合语机器翻译领域课程

Domain Curricula for Code-Switched MT at MixMT 2022

Lekan Raheem, Maab Elrashid

TL;DR该研究介绍了一种用于多语言混合情境下机器翻译的方法，它包括多个领域的预训练和微调，和一种句子对齐目标。结果表明，在不同领域之间的切换会改善在较早训练时观察到的领域的性能，但会耗尽对其他领域的性能。采用策略性地分配不同领域数据进行连续训练能够显著提高性能。

Abstract

In multilingual colloquial settings, it is a habitual occurrence to compose expressions of text or speech containing tokens or phrases of different languages, a phenomenon popularly known as code-switching or

code-switching code-mixing machine translation multilingual fine-tuning

发现论文，激发创造

混码探针展示预训练模型如何在混码文本上泛化

本研究通过对预训练语言模型处理混合语言文本的能力、模型捕捉混合语言文本的结构信息的变化性以及语义信息表达的一致性的研究，揭示了预训练语言模型在泛化到混合语言文本上的有效性，从而为这些模型在处理混合语言资源方面的能力提供了洞察。

Mar, 2024

启用代码交替机器翻译的检查和策略

本研究探讨了多语言神经机器翻译模型处理语种混杂文本的能力，提出了一种检测方法和简单有效的数据增强方法，同时通过对注意力模块的分析证明了这些方法的有效性。

Oct, 2022

针对机器翻译的领域特定文本生成

本研究提出了一种利用预训练语言模型进行领域特定数据增强的领域自适应新方法，通过该方法，配合回译技术，可生成大量合成双语的领域内数据，从而显著改进了机器翻译的领域内文本的翻译效果。人工评估结果进一步证实了自动评估结果的准确性。

Aug, 2022

基于多任务预训练和迁移学习的简单而有效的语言代码切换识别

本文研究如何使用深度学习方法提高混合语言识别的准确性，提出了包括使用 Residual CNN+GRU 模型，以及使用自动语音识别（ASR）作为辅助任务的多任务预训练方法等两种有效方法，并且通过使用单语语料库以及数据上采样等方法来创造真正的混合语言数据集，最终实验结果显示，本文提出的模型在英汉混合语言语音识别准确度上超过了之前的基准模型约 55.3%。

May, 2023

kk2018 参加 SemEval-2020 任务 9：针对混合编码的情感分类进行对抗性训练

本篇论文旨在探究作为一种语言现象的码代码搭配和混合情感分类在领域转移学习和多语言模型中的应用，通过测试 ERNIE 单一语言模型和对抗训练得到了强的基线和对 2020 SemEval 竞赛中印度 - 英语情感分类任务第一名的表现。

Sep, 2020

使用代码转换增强预设翻译的神经机器翻译

研究一种使用代码转换从而生成的训练数据的数据增强方法来限制大众翻译机器在本地词汇翻译方面的失误问题。

Apr, 2019

利用语言模型进行机器翻译的上下文代码切换

通过对比多个 LLM 模型，在机器翻译任务中，我们发现相对较简单的模型性能优于多语言大型语言模型，表明多语言大型语言模型在上下文代码切换方面的有效性受到训练方法的限制。与之相反，当相对较小的模型在定制的数据集上进行训练和微调时，可能会产生更好的结果。

Dec, 2023

领域不匹配并不总是阻止跨语言迁移学习

本文展示了一种简单的初始化方案，用于克服跨语言转移中不同领域的影响，通过在领域不匹配的语料库上预训练词和上下文嵌入，然后用于多个任务中，包括 UBLI、UNMT 和 SemEval 2017 跨语言词汇相似性任务，挑战了之前的研究论文并指出，在适当初始化的情况下可以恢复由于域不匹配而产生的损失。

Nov, 2022

通过预测语言模式进行跨语言代码混合数据增强

本文研究围绕语内码混杂问题，提出了多种合成混杂数据方法，在各种数量的标注黄金数据中，在下游情感分析任务上表现出色。最重要的是，我们的方法表明，用定量掩码替换矩阵语言句子的部分内容可以显著提高分类准确性，这激发了对码混杂现象的进一步语言学洞察。我们在各种低资源和跨语言设置中测试了数据增强方法，在极度缺乏英马拉雅语的数据集上获得了高达 7.73％的相对改进。最后，我们提出了一种语言不可知的 SCM 算法，对低资源语言非常有用。

Nov, 2022

通过词表归纳进行神经机器翻译的领域适应

本文提出了一种无监督的自适应方法，使用伪域内语料库通过微调预先训练的域外 NMT 模型，借助词典诱导提取域内词汇，并通过针对性的单语域内目标句子进行逐词反向翻译构建伪平行域内语料库，在 20 对自适应设置和两种模型架构的五个领域中，我们的方法始终显示出提高，而不需要使用任何域内平行句子，改进了未经过调整的模型高达 14 BLEU 和强反向翻译基线的最高 2 BLEU。

Jun, 2019