零样本跨语言转移是未规范化的优化
本文提出一种简单的迭代训练过程,利用系统直接生成的翻译对零-shot方向进行翻译,以及原始并行数据,来重新训练多语言网络,有效提高了多语言模型的BLEU分数,并且在非零-shot语言方向上的性能也略有提升。
Nov, 2018
通过跨语言预训练的双语预训练方法,建立了通用编码器,将传递者和接受者的语言空间对齐,使得零翻译成为可能。实验结果表明,该方法显著优于强的基准线和各种多语言NMT方法。
Dec, 2019
本文研究了多语言语境嵌入在零样本跨语言迁移学习上的表现,并发现使用英语进行零样本设置时很难获得可重复的结果和一致的检查点,建议在零样本结果旁边提供oracle分数,通过避免任意差的检查点使结果更一致。
Apr, 2020
分析了massively multilingual transformers在零射击跨语言场景中的局限性,并表明在资源匮乏和对比较遥远语言的情况下通过多语言转换的跨语言转移实际上不太有效。通过几个低级和高级自然语言处理任务的实验,确立了源语言和目标语言之间的语言相似度以及目标语言的预训练语料库的大小与转移性能之间的相关性。另外,研究表明通过在源语言上调整细节,再在目标语言上进行少量微调的few-shot transfer在多语言转换中十分有效。
May, 2020
本研究针对少样本跨语言迁移问题进行了试验设计和成功案例分析,并提出了集成功效设计的实验方案。通过对六个不同自然语言处理任务的40组样本进行分析,阐明了字典特性在少样本迁移中的作用,并证明了简单的完整模型微调方法在少样本迁移中的有效性。同时,开放了部分样本,为标准化的跨语言实验设计提供了参考。
Dec, 2020
本研究提出了SixT,一种利用多语言预训练编码器(MPE)来促进神经机器翻译模型的跨语言迁移的方法。通过采用两阶段训练计划和位置解缠编码器以及容量增强解码器,SixT在零基础多语言翻译任务上取得了比已有模型更好的结果。
Apr, 2021
本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究,发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习,即使训练集是自动从英语翻译而来。同时,该结论对于多语言零样本系统有着重要影响,并且应该指导未来的基准设计。
Jun, 2021
预训练多语言模型的容量和效果已经得到确认,但对于零样本跨语言转移中的积极或消极转移现象以及语言选择的影响还需进一步理解,本研究提出了一种高效的方法,通过专用适配器单元将下游任务与语言分离,发现一些语言对其他语言影响不大,而一些未在预训练中出现的语言对不同目标语言具有极大益处或有害,我们发现没有任何一种语言对所有目标语言都有益,但奇怪的是我们观察到,之前未被多语言模型预训练见过的语言总是从任何语言的转移中受益,此外,我们利用模块化方法高效量化负面干涉并相应分类语言,最后,我们提供了一系列有希望改善目标语言性能的转移-目标语言配置。
Mar, 2024
本研究针对现有多语言信息提取研究中存在的局限性,提供了一种针对多语言跨转移学习的详细分析。通过探讨语言之间的距离以及结合的语言距离度量,研究揭示了在零样本多语言设置中优化数据选择的问题,从而为实现更广泛的多语言信息提取系统奠定基础。
Nov, 2024