Jun, 2023

理解 Transformer 中的参数共享

TL;DR通过研究深度模型中参数共享的原因,本文发现共享参数主要是通过优化训练收敛来提高模型性能。在机器翻译等任务中,我们的模型表现优异,且仅有参数共享模型一半的复杂度。