May, 2022

带有记忆回放的Transformer

TL;DR本文提出了一种记忆重放机制与Transformer相结合的方法,称为Transformer with Memory Replay(TMR),在大规模文本语料库上预训练,使Transformer更具样本效率。在GLUE和SQuAD基准数据集上进行的实验显示,与基线transformer模型相比,当预先训练相同数量的示例时,使用记忆重放的Transformer可至少提高1%。此外,通过采用减少内存重放的时钟时间开销的仔细设计,也实现了更好的运行时效率。