AAAIApr, 2020

快速深度自适应变压器

TL;DR本文提出基于互信息和重构误差两种方法来测量输入词语的难度和估计相应的自适应深度,从而摆脱判停单元,并提高深度自适应模型的速度和稳定性。实验证明,该方法能够在保持高准确性的同时,加快原始 Transformer 速度(高达 7 倍),并提高效率和鲁棒性,相对于其他深度自适应方法具有显著优势。