Jul, 2019

带有Product Keys的大型内存层

TL;DR本文介绍了一种结构化记忆,它可以轻松地集成到神经网络中,并基于产品键的设计和访问模式,使用快速准确的最近邻搜索来显着增加架构的容量。这种记忆层可用于处理非常大规模的语言建模任务,并可以提高模型预测准确性并在训练和测试时间内保持计算效率。我们将其插入基于Transformer的体系结构的代码中,实验结果表明,仅有12层的记忆增强模型优于具有24层的基线Transformer模型,并且在推理时间上快两倍。