基于跨语言预训练的零 - shot 神经机器翻译迁移
本文使用序列到序列模型进行自然语言生成任务,使用预训练的方法并将编码器和解码器用于单语和跨语言,实现零 - shot 跨语言转移、提高低资源语言的 NLG 性能。
Sep, 2019
通过设计归一化方法来改进 Transformer 模型以实现对未在训练过程中出现的语言对进行零 - shot 机器翻译,此方法可使系统在 IWSLT 2017 多语言数据集中平均提高 2.23 BLEU 分数。
Jun, 2019
本文研究了多语言神经机器翻译模型的零样本翻译问题,提出了基于辅助损失的方法,并在 WMT14 英语 - 法语 / 德语上实现了与基于中介语的模型相媲美的零样本翻译效果,同时在 IWSLT 2017 共享任务中验证了该方法的易于扩展性。
Mar, 2019
通过使用预训练模型,我们提出了一种零样本跨语言转移的新方法,它能够在低资源语言上实现任务感知的双语信息对齐,并利用未标记数据进行自我训练,从而实现多种任务上的最新技术提升,无需并行语料库或翻译模型。
Oct, 2023
本文论述了跨语言零 - shot 迁移的问题,并通过对 XLM-RoBERTa 进行实验,研究机器阅读理解、情感分析和句子嵌入对跨语言迁移的影响。发现跨语言迁移在语义文本相似度检验(STS)中表现最强,情感分析次之,机器阅读理解中表现最弱。
Jan, 2021
通过研究,我们发现使用预训练的多语言编码器进行零样本跨语言转移时,可能会产生高方差的不可靠模型,这是由于零样本跨语言转移解决了欠约束的优化问题,而线性插值模型可以同时对源语言和目标语言进行较好地建模,因此可以作为更好的方案。此外,零样本解决方案位于目标语言错误泛化表面的非平坦区域,导致了高方差。
Jul, 2022
本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索,并提出了一种基于 Transformer 模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下,我们在用非英语句子查询多语言文本 - 视频模型时发现性能显著下降。为了解决这个问题,我们引入了多语言多模态预训练策略,并收集了一个新的多语言教学视频数据集(MultiHowTo100M)进行预训练。在 VTT 上的实验表明,我们的方法显著提高了非英语语言的视频搜索效果,而无需额外的注释。此外,当有多语言注释时,我们的方法在 VTT 和 VATEX 上的多语言文本到视频搜索以及 Multi30K 上的多语言文本到图像搜索方面大幅优于最近的基准线。
Mar, 2021
本研究提出了 SixT,一种利用多语言预训练编码器(MPE)来促进神经机器翻译模型的跨语言迁移的方法。通过采用两阶段训练计划和位置解缠编码器以及容量增强解码器,SixT 在零基础多语言翻译任务上取得了比已有模型更好的结果。
Apr, 2021
本文探讨了如何改善大规模多语言神经机器翻译模型的性能,并提出了加强模型能力、引入语言特定组件和加深神经机器翻译结构以支持具有不同类型学特征的语言对,同时通过随机在线回译来解决离线训练中未出现的语言对翻译问题。实验结果表明,本方法在一对多和多对多设置中缩小了双语模型的性能差距,并将零 - shot 表现提高约 10 BLEU,接近传统的基于中间语言的方法。
Apr, 2020
分析了 massively multilingual transformers 在零射击跨语言场景中的局限性,并表明在资源匮乏和对比较遥远语言的情况下通过多语言转换的跨语言转移实际上不太有效。通过几个低级和高级自然语言处理任务的实验,确立了源语言和目标语言之间的语言相似度以及目标语言的预训练语料库的大小与转移性能之间的相关性。另外,研究表明通过在源语言上调整细节,再在目标语言上进行少量微调的 few-shot transfer 在多语言转换中十分有效。
May, 2020