ACLOct, 2020

长度自适应 Transformer: 一次训练,随时使用,避免长度限制和搜索

TL;DR本论文中提出了一种名为 Length-Adaptive Transformer 的方法,通过使用结构变体 dropout(LengthDrop)在一个转换器上一次训练即可在各种推理场景下使用,并使用多目标进化搜索查找在任何给定计算预算下最大化准确性和最小化效率度量的长度配置。此外,还通过 Drop-and-Restore 过程将 PoWER-BERT 的适用范围显着扩展到单词级分类中。该方法在各种设置下都展现了卓越的准确性和效率平衡性能。