May, 2024

重新思考编码器层与解码器层之间的自适应关系

TL;DR该论文探讨了编码器层和解码器层之间的适应性关系,使用 Helsinki-NLP/opus-mt-de-en 这一最先进模型将德语翻译为英语。具体方法是在编码器和解码器之间引入一个无偏差的全连接层,并对该层的权重进行不同的初始化,观察微调与重新训练的结果。总共进行了四个实验,结果表明直接修改预训练模型结构进行微调效果不佳,然而,观察重新训练实验的结果后,这种结构调整显示出了显著的潜力。