ACLApr, 2020

适应预训练的单语和多语模型的机器翻译配方

TL;DR本文旨在研究利用预训练模型进行机器翻译时,冻结参数与添加新参数来微调预训练模型的优点和缺点,通过试验方式得出最优结果。结果表明,当微调 monolingual 预训练模型时,通过冻结大部分模型参数并添加更多的位置嵌入可以在机器翻译任务中获得最佳性能表现,最重要的微调参数是编码器 - 解码器的关注力参数。