Aug, 2024

充分利用您的模型:微调和应用预训练变换器的方法

TL;DR本研究解决了微调预训练变换器模型效率与功能的不足,提出了两种新微调方法。其中一种通过引入递归机制提升变换器解码器的效率,另一种则使得掩蔽语言模型可用于非自回归序列到序列变换器的初始化,扩展其生成应用。研究显示,新技术可在不额外微调的情况下改善变换器解码器的预测质量,具有重要的实践价值。