Apr, 2024

使用指针增强神经记忆增强顺序模型中的长度外推

TL;DR我们提出了 Pointer-Augmented Neural Memory (PANM),以帮助神经网络理解和应用符号处理于新的、更长的数据序列。PANM 包含一个外部神经记忆,使用新颖的物理地址和指针操作技术,模拟人类和计算机的符号处理能力。通过明确地使用物理指针访问内存内容,PANM 可以促进指针分配、解引用和算术运算。值得注意的是,它可以通过对序列数据进行端到端训练来学习执行这些操作,从而为各种顺序模型提供动力。我们的实验证明了 PANM 在超长推断能力方面的卓越表现,以及在需要符号处理的任务(如算法推理和 Dyck 语言识别)中的改进性能。PANM 帮助 Transformer 在组合学习任务中达到了高达 100% 的泛化准确率,并且在数学推理、问答和机器翻译任务中取得了显著更好的结果。