ICLRApr, 2020

带长短范围注意力的轻量 Transformer

TL;DR本文提供了一种高效的移动 NLP 架构 —— Lite Transformer,它通过使用 Long-Short Range Attention 来进行本地上下文建模与长距离关系建模的特化,从而在机器翻译、摘要生成和语言建模三个方面均优于 vanilla transformer,并且在受到硬件资源限制的条件下,Lite Transformer 在 WMT'14 英法任务上均优于 Transformer。此外,对该模型进行修剪与量化等操作可以将模型体积进一步压缩 18.2 倍,而在 500M MACs 的计算量下,Lite Transformer 的困惑度比 Transformer 低 1.8。