生成任务中有效的零射击跨语言知识转移的关键要素

Feb, 2024

生成任务中有效的零射击跨语言知识转移的关键要素

Key ingredients for effective zero-shot cross-lingual knowledge transfer in generative tasks

Nadezhda Chirkova, Vassilina Nikoulina

TL;DR零 - shot 跨语言生成的前提是在一个语言上对多语言预训练语言模型进行微调，并将其用于其他语言的生成任务中。先前的研究注意到生成错误语言的频繁问题，并提出了解决方法，通常使用 mT5 作为基础模型。本研究在统一设置下比较了文献中提出的各种方法，还包括 mBART 和 NLLB-200 作为备用基础模型。我们首先强调了微调中使用的学习率调整的重要性，这有助于大幅减轻生成错误语言的问题。然后，我们展示了通过仔细调整学习率，简单的模型全面微调作为一个非常强大的基准，备选方法带来的只是微小的改进。最后，我们发现 mBART 的性能与相同大小的 mT5 相似，并且在某些情况下，NLLB-200 可以有竞争力。我们的最终模型达到了基于数据翻译的方法的性能水平，这通常被视为零 - shot 跨语言生成的上限基准。

Abstract

zero-shot cross-lingual generation implies finetuning of the multilingual pretrained language model on a generation task in one language and then using it to make predictions for this task in other languages. Pre

zero-shot cross-lingual generation finetuning multilingual pretrained language model mt5 mbart

发现论文，激发创造

预训练的多语言语言模型在零差生成中的实证研究

通过在一个语言上对多语言预训练语言模型（mPLM）进行微调，再在其他语言上使用它进行预测，零样本跨语言生成通常会出现使用错误语言生成的问题，本研究测试了替代的 mPLMs（如 mBART 和 NLLB），考虑到全微调和适配器参数高效微调，并发现带适配器的 mBART 的性能与相同规模的 mT5 相似，NLLB 在某些情况下具备竞争力，还强调了微调中学习率的调整对缓解错误语言生成问题的重要性。

Oct, 2023

ZmBART：一种用于语言生成的无监督跨语言转移框架

本文针对自然语言生成中跨语言转移的研究相对匮乏，介绍了一种无监督的跨语言语言生成框架 ZmBART，使用少量高资源语言数据进行监督学习，并通过预训练的方式，利用三种语言的单语数据来进行无监督学习，最终在多种低资源语言上获得了较好的性能。

Jun, 2021

为什么零 - shot 跨语言生成会失败？原因和解决方案

本研究针对零样本跨语言转移中生成任务的中文输出质量不高、甚至有时会输出错误语言的问题，提出了一种用于正则化模型的简单方法和一种用于在不需要目标语言开发集的情况下选择模型检查点的方法，实验证明该方法使得 ROUGE-L 分数平均提高 1.5，同时将意外翻译问题减少了 68%。

May, 2023

多任务学习用于多语言模型零 - shot 性能预测

本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测，并将其视为多任务学习问题，从而建立准确的预测模型。我们的方法还同时进行了特征选择，识别出对多个任务的零样本表现具有影响的共同特征。

May, 2022

从零到英雄：多语言 Transformer 的零 - shot 跨语言转移限制

分析了 massively multilingual transformers 在零射击跨语言场景中的局限性，并表明在资源匮乏和对比较遥远语言的情况下通过多语言转换的跨语言转移实际上不太有效。通过几个低级和高级自然语言处理任务的实验，确立了源语言和目标语言之间的语言相似度以及目标语言的预训练语料库的大小与转移性能之间的相关性。另外，研究表明通过在源语言上调整细节，再在目标语言上进行少量微调的 few-shot transfer 在多语言转换中十分有效。

May, 2020

基于跨语言预训练的零 - shot 神经机器翻译迁移

通过跨语言预训练的双语预训练方法，建立了通用编码器，将传递者和接受者的语言空间对齐，使得零翻译成为可能。实验结果表明，该方法显著优于强的基准线和各种多语言 NMT 方法。

Dec, 2019

多语言蒸馏和零样本感知训练的跨语言文本分类

利用教师 - 学生框架从高性能的单语言模型中转移知识，构建了一个基于 MPLMs 的多语言分支模型（MBLM），并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习，我们的方法仅使用任务的监督数据，提高了 MPLMs 的监督性能和零射击性能。

Feb, 2022

跨语言迁移的模型选择

本论文展示了在辅助支点语言中提供少量注释数据可以更好地选择用于零 - shot 跨语言迁移的 fine-tuned models，并提出一种基于机器学习的方法用于模型选择，该方法使用 fine-tuned 模型的内部表示来预测其跨语言能力。在广泛的实验中，我们发现这种方法比使用英文验证数据一直可以跨越二十五种语言（包括八种低资源语言）选择更好的模型，并且通常可以达到使用目标语言开发数据进行模型选择的结果

Oct, 2020

改进大规模多语言神经机器翻译和零样例翻译

本文探讨了如何改善大规模多语言神经机器翻译模型的性能，并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对，同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明，本方法在一对多和多对多设置中缩小了双语模型的性能差距，并将零 - shot 表现提高约 10 BLEU，接近传统的基于中间语言的方法。

Apr, 2020

零样本跨语言生成中克服灾难性遗忘

本文研究如何在只有英文标记数据的情况下，在目标语言中执行生成任务，以 summarization 作为案例研究。研究发现了通用的迁移学习方法在这种情况下存在困难，并且展示通过 prompt tuning 等方法可以实现跨语言生成。

May, 2022