EMNLPApr, 2021

跨注意力就是你所需要的:将预训练变换器应用于机器翻译

TL;DR本研究探讨 Transformer 架构中交叉注意力在机器翻译领域迁移学习中的能力,并在从头开始训练的情况下扩展交叉注意力的研究结果,结果显示细调整仅交叉注意力参数与细调整所有参数(即整个翻译模型)的效果相似, 细节说明为什么这是这种情况,并且发现以这种方式限制细调整可以产生交叉语言嵌入。研究结果可以用于减轻灾难性遗忘,实现零 - shot 翻译,并将机器翻译模型扩展到多个新语言对,减轻参数存储开销。