EMNLPSep, 2020

分解彩票网络变形器:稀疏神经机器翻译的结构和行为研究

TL;DR利用稀疏 Transformer 进行神经机器翻译可以保证 BLEU 分数,但通过剪枝会影响模型的学习表征,随着剪枝过程中低振幅权重的削减,语义信息的复杂性首先降低,同时在保持注意力机制的一致性的情况下,稀疏模型的早期层开始了更多的编码。