ICLRJan, 2020

Reformer:高效 Transformer

TL;DR本文介绍了两种技术以提高 Transformer 的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。