强健的跨语言转移：通过模型检查点平均化实现免费午餐

May, 2023

强健的跨语言转移：通过模型检查点平均化实现免费午餐

Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging

Fabian David Schmidt, Ivan Vulić, Goran Glavaš

TL;DR本文探讨了在跨语种任务上，fine-tuning 的模型在模型点上的性能评估并不符合 zero-shot 和 few-shot 学习的前提；并提出了一种更为稳健的模型检查点平均方法，特别是在没有标注的目标语言数据的情况下，该方法在多个任务和语种下表现出可靠的性能。

Abstract

Massively multilingual language models have displayed strong performance in zero-shot (ZS-XLT) and few-shot (FS-XLT) cross-lingual transfer setups, where models fine-tuned on task data in a source language are transferred without any or with only a few annotated instances to the target

cross-lingual transfer fine-tuning model checkpoints zero-shot learning few-shot learning

发现论文，激发创造

一对所有 & 所有对一：使用模型平均绕过超参数调整进行跨语言迁移

基于不同运行模型的累积逐渐平均，提升零样本跨语言转移（ZS-XLT）性能，与目标语言验证性能基于模型选择有密切相关。

Oct, 2023

重新审视神经机器翻译中的检查点平均化

在神经机器翻译中，采用 checkpoint 平均值来提高模型的性能，此方法计算简单，被广泛采用。本文通过实验，考虑了不同 checkpoint 选择策略、加权平均、梯度信息等方面的应用，结果表明 checkpoint 平均值对于性能的提高是必要的，但随着收敛到最优模型的序列不断增加，模型的改善空间较小。

Oct, 2022

为什么零 - shot 跨语言生成会失败？原因和解决方案

本研究针对零样本跨语言转移中生成任务的中文输出质量不高、甚至有时会输出错误语言的问题，提出了一种用于正则化模型的简单方法和一种用于在不需要目标语言开发集的情况下选择模型检查点的方法，实验证明该方法使得 ROUGE-L 分数平均提高 1.5，同时将意外翻译问题减少了 68%。

May, 2023

跨语言迁移的模型选择

本论文展示了在辅助支点语言中提供少量注释数据可以更好地选择用于零 - shot 跨语言迁移的 fine-tuned models，并提出一种基于机器学习的方法用于模型选择，该方法使用 fine-tuned 模型的内部表示来预测其跨语言能力。在广泛的实验中，我们发现这种方法比使用英文验证数据一直可以跨越二十五种语言（包括八种低资源语言）选择更好的模型，并且通常可以达到使用目标语言开发数据进行模型选择的结果

Oct, 2020

分析监督式 NLP 任务中的零样本跨语言迁移

本文论述了跨语言零 - shot 迁移的问题，并通过对 XLM-RoBERTa 进行实验，研究机器阅读理解、情感分析和句子嵌入对跨语言迁移的影响。发现跨语言迁移在语义文本相似度检验（STS）中表现最强，情感分析次之，机器阅读理解中表现最弱。

Jan, 2021

零样本跨语言迁移的泛化度量

在跨语言零样本设置中，探索了一组有效且可靠的度量，以计算语言模型的泛化能力相关信息，并提出了一种稳定的算法来可靠计算模型最优解的锋利度与泛化之间的相关性。

Apr, 2024

多语言语言模型中跨语言知识迁移评估的分析

通过实验证明多语言模型具有零 - shot 跨语言知识转移的能力并且在下游任务中表现出较高性能，但我们对当前评估基准和设置是否能准确衡量零 - shot 跨语言知识转移产生了质疑。本研究通过引入更具挑战性的多语言实例设置，表明多语言模型的高性能在很大程度上归因于不需要传递实际语言知识的因素，如任务和表面层知识。我们观察到跨语言传递的主要是数据工件和偏见，尤其是对于资源有限的语言。我们的发现凸显了现有跨语言测试数据和评估设置的缺点，呼吁对多语言模型的跨语言能力有更细致的理解。

Feb, 2024

跨语言迁移中多源语言训练的分析

多语种语言模型，交叉语言迁移，源语言，嵌入空间，语言组合

Feb, 2024

从零到英雄：多语言 Transformer 的零 - shot 跨语言转移限制

分析了 massively multilingual transformers 在零射击跨语言场景中的局限性，并表明在资源匮乏和对比较遥远语言的情况下通过多语言转换的跨语言转移实际上不太有效。通过几个低级和高级自然语言处理任务的实验，确立了源语言和目标语言之间的语言相似度以及目标语言的预训练语料库的大小与转移性能之间的相关性。另外，研究表明通过在源语言上调整细节，再在目标语言上进行少量微调的 few-shot transfer 在多语言转换中十分有效。

May, 2020

自动语音翻译的跨语言转移学习改进

本论文旨在通过语义知识蒸馏来改进多语言语音转文本翻译中的跨语言迁移学习。通过使用 SAMU-XLS-R 来初始化编码器，我们在 CoVoST-2 和 Europarl 语音转文本数据集上实现了比基线模型更好的交叉语言任务知识传输，其中平均提高了 12.8 个 BLEU 分数。在零 - shot 翻译情景下，我们在未见过的中低资源语言上平均提高了 18.8 分和 11.9 个 BLEU 分数。

Jun, 2023