MALM：混合增强语言建模实现零 - shot 机器翻译

ACLOct, 2022

MALM：混合增强语言建模实现零 - shot 机器翻译

MALM: Mixing Augmented Language Modeling for Zero-Shot Machine Translation

Kshitij Gupta

TL;DR本研究表明，在零样本机器翻译中，基于输入提示的大型模型不会出现离题语言错误，实验证明自监督预训练和数据增强对于零样本多语言机器翻译的效果显著。

Abstract

Large pre-trained language models have brought remarkable progress in NLP. pre-training and fine-tuning have given state-of-art performance across tasks in text processing. →

pre-training fine-tuning data augmentation multi-lingual machine translation prompt conditioned large models

发现论文，激发创造

自我增强提高零 - shot 跨语言迁移

提出一种称为 SALT 的简单而有效的方法，结合了代码混合和嵌入混合自增强，通过从多语言预训练语言模型中提取跨语言知识并增强其在下游任务中的可转移性，改进了零射击跨语言转移能力，而无需外部数据。

Sep, 2023

改进大规模多语言神经机器翻译和零样例翻译

本文探讨了如何改善大规模多语言神经机器翻译模型的性能，并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对，同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明，本方法在一对多和多对多设置中缩小了双语模型的性能差距，并将零 - shot 表现提高约 10 BLEU，接近传统的基于中间语言的方法。

Apr, 2020

多任务学习用于多语言模型零 - shot 性能预测

本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测，并将其视为多任务学习问题，从而建立准确的预测模型。我们的方法还同时进行了特征选择，识别出对多个任务的零样本表现具有影响的共同特征。

May, 2022

跨语言迁移的模型选择

本论文展示了在辅助支点语言中提供少量注释数据可以更好地选择用于零 - shot 跨语言迁移的 fine-tuned models，并提出一种基于机器学习的方法用于模型选择，该方法使用 fine-tuned 模型的内部表示来预测其跨语言能力。在广泛的实验中，我们发现这种方法比使用英文验证数据一直可以跨越二十五种语言（包括八种低资源语言）选择更好的模型，并且通常可以达到使用目标语言开发数据进行模型选择的结果

Oct, 2020

使用翻译增强的多语言问答转移学习

本文探索了提高多语言问题回答的交叉语言转移性能的策略，包括使用机器翻译生成的数据来增强原始英语训练数据，以及提出两种新颖的策略：语言对抗性训练和语言仲裁框架，这些策略显著提高了零资源的交叉语言转移性能，并导致 LM 嵌入不那么语言特定的结果。经验证明，这些模型在最近推出的 multilingual MLQA 和 TyDiQA 数据集上优于以前的零 - shot 基线。

Dec, 2020

多语言蒸馏和零样本感知训练的跨语言文本分类

利用教师 - 学生框架从高性能的单语言模型中转移知识，构建了一个基于 MPLMs 的多语言分支模型（MBLM），并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习，我们的方法仅使用任务的监督数据，提高了 MPLMs 的监督性能和零射击性能。

Feb, 2022

零样本神经机器翻译中的缺失元素

本文研究了多语言神经机器翻译模型的零样本翻译问题，提出了基于辅助损失的方法，并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果，同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。

Mar, 2019

基于跨语言预训练的零 - shot 神经机器翻译迁移

通过跨语言预训练的双语预训练方法，建立了通用编码器，将传递者和接受者的语言空间对齐，使得零翻译成为可能。实验结果表明，该方法显著优于强的基准线和各种多语言 NMT 方法。

Dec, 2019

无监督生成式语言模型神经机器翻译

通过使用大型预训练语言模型的零 - shot 翻译能力，结合少样本放大、去噪和回译等方法，成功地实现了最新的无监督神经机器翻译模型，在 WMT14 英法数据集上获得了 BLEU 42.1 的最高性能表现。

Oct, 2021

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023