语言污染现象解释英语预训练模型的跨语言能力

EMNLPApr, 2022

语言污染现象解释英语预训练模型的跨语言能力

Language Contamination Helps Explain the Cross-lingual Capabilities of English Pretrained Models

Terra Blevins, Luke Zettlemoyer

TL;DR本文研究预训练语言模型在跨语言转移方面的表现，发现常见的英文预训练集中包含大量非英文文本，即使数量仅占不到 1%，也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据，也能够促进模型在目标语言上的跨语言转移，并且目标语言性能与预训练中见到的该语言数据量强相关。因此，我们认为在评估跨语言转移时，应该考虑到预训练模型不是真正的单语言模型。

Abstract

English pretrained language models, which make up the backbone of many modern nlp systems, require huge amounts of unlabeled training data. These models are generally presented as being trained only on English te

pretrained language models nlp systems cross-lingual transfer non-english text large-scale datasets

发现论文，激发创造

以字节衡量跨语言转移

通过实验证实，多语言预训练可以在源语言和目标语言之间进行跨语言迁移，且不仅语言污染和语言近似性是影响迁移的因素，还有一种语言无关的知识组件，可以用于跨语言迁移和知识传递。

Apr, 2024

从英语到外语：迁移预训练语言模型

本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法，使用单个 GPU，一天内可以获得一种新的外语 BERT 基础模型，并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。

Feb, 2020

重审零样本跨语言转移中英语的首要地位

本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究，发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习，即使训练集是自动从英语翻译而来。同时，该结论对于多语言零样本系统有着重要影响，并且应该指导未来的基准设计。

Jun, 2021

预训练语言模型中新兴的跨语言结构

通过研究多语言掩码语言建模问题，我们阐述了若干因素，即为何这些模型在跨语言转移方面如此有效，并证明了即使单语料库之间没有共享词汇，也可以进行转移，只需在多语言编码器顶层存在一些共享参数。同时，我们展示了来自不同语言、独立训练模型的表示可以很好地进行后期对齐，这些模型似乎自动发现和对齐了学习嵌入空间中的普遍潜在对称性。对于多语言掩码语言建模，这些对称性似乎是在联合训练过程中自动发现和对齐的。

Nov, 2019

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

跨语言和渐进式迁移学习实现高效的语言模型训练

介绍了一种名为 CLP-Transfer 的跨语言和渐进式迁移学习方法，将预训练模型从一个源语言转移到一个新的目标语言，实现了资源高效的训练，同时解决了资源不足的语言之间的表现差距问题，并比单纯的跨语言传输要好。

Jan, 2023

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024

语言变色龙：基于预训练语言模型的跨语言后训练转换分析

本研究采用跨语言后训练 (XPT) 基于单一低资源语言进行了广泛的评估和探测实验，结果显示 XPT 不仅优于或与训练数据数量更多的单语模型的表现相当，而且转移过程非常高效。

Sep, 2022

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023

将以英语为中心的 LLMs 转变为多语种模型：需要多少语言能力？

通过与只使用英文进行微调的模型相比较，研究发现只使用三种语言进行多语种微调可以显著提高模型在生成式任务上的跨语言转移能力，而在高度结构化的任务上影响较小。

Dec, 2023