Jul, 2019
利用持久内存扩展自注意力
Augmenting Self-attention with Persistent Memory
Sainbayar Sukhbaatar, Edouard Grave, Guillaume Lample, Herve Jegou, Armand Joulin
TL;DR该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。