Jan, 2020

Reformer:高效Transformer

TL;DR本文介绍了两种技术以提高Transformer的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型Reformer在处理长序列时比Transformer更加高效。