无平行语料的零样本跨语言迁移

Oct, 2023

Zero-shot Cross-lingual Transfer without Parallel Corpus

Yuyang Zhang, Xiaofeng Han, Baojun Wang

TL;DR通过使用预训练模型，我们提出了一种零样本跨语言转移的新方法，它能够在低资源语言上实现任务感知的双语信息对齐，并利用未标记数据进行自我训练，从而实现多种任务上的最新技术提升，无需并行语料库或翻译模型。

Abstract

Recently, although pre-trained language models have achieved great success on multilingual nlp (Natural Language Processing) tasks, the lack of training data on many tasks in →

发现论文，激发创造

多源跨语言模型迁移：学习共享的内容

利用生成对抗网络和无监督多语言嵌入，结合多源语言训练数据的多语言转移学习方法，在多语言文本分类和序列标记任务中实现 target 语言的显著性能提升。

Oct, 2018

提高低资源语言的零-shot翻译

本文提出一种简单的迭代训练过程，利用系统直接生成的翻译对零-shot方向进行翻译，以及原始并行数据，来重新训练多语言网络，有效提高了多语言模型的BLEU分数，并且在非零-shot语言方向上的性能也略有提升。

Nov, 2018

基于跨语言预训练的零-shot神经机器翻译迁移

通过跨语言预训练的双语预训练方法，建立了通用编码器，将传递者和接受者的语言空间对齐，使得零翻译成为可能。实验结果表明，该方法显著优于强的基准线和各种多语言NMT方法。

Dec, 2019

元学习实现零样本跨语言迁移

研究多语言应用中，如何应用元学习来提高模型性能，通过实验表明在标准的监督学习、零样本学习和少样本学习的跨语言自然语言理解任务中，元学习对于15种语言始终有效。

Mar, 2020

从零到英雄：多语言Transformer的零-shot跨语言转移限制

分析了massively multilingual transformers在零射击跨语言场景中的局限性，并表明在资源匮乏和对比较遥远语言的情况下通过多语言转换的跨语言转移实际上不太有效。通过几个低级和高级自然语言处理任务的实验，确立了源语言和目标语言之间的语言相似度以及目标语言的预训练语料库的大小与转移性能之间的相关性。另外，研究表明通过在源语言上调整细节，再在目标语言上进行少量微调的few-shot transfer在多语言转换中十分有效。

May, 2020

重审零样本跨语言转移中英语的首要地位

本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究，发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习，即使训练集是自动从英语翻译而来。同时，该结论对于多语言零样本系统有着重要影响，并且应该指导未来的基准设计。

Jun, 2021

CrossAligner & Co: 面向任务的跨语言自然语言理解的零-shot传递方法

CrossAligner是一种实现零-shot跨语言传递任务知识的有效方法，利用未标记并行数据进行学习对齐，其细调语言模型优于预期。

Mar, 2022

一种简单而有效的方法来提高零样本跨语言迁移学习

本文提出一种无监督的跨语言嵌入转换方法，其中使用Embedding-Push、Attention-Pull和Robust targets来处理语言嵌入之间的聚类差异，以提高跨语言转换的可靠性。实验结果表明，该方法在零-shot跨语言文本分类任务上取得显着优于以往的工作，可以获得更好的多语言对齐。

Oct, 2022

自我增强提高零-shot跨语言迁移

提出一种称为SALT的简单而有效的方法，结合了代码混合和嵌入混合自增强，通过从多语言预训练语言模型中提取跨语言知识并增强其在下游任务中的可转移性，改进了零射击跨语言转移能力，而无需外部数据。

Sep, 2023

零样本跨语言迁移学习与信息提取的多源和目标语言：语言选择与对抗训练

本研究针对现有多语言信息提取研究中存在的局限性，提供了一种针对多语言跨转移学习的详细分析。通过探讨语言之间的距离以及结合的语言距离度量，研究揭示了在零样本多语言设置中优化数据选择的问题，从而为实现更广泛的多语言信息提取系统奠定基础。

Nov, 2024