May, 2023
Transformer 工作记忆促进正则语言推理和自然语言长度外推
Transformer Working Memory Enables Regular Language Reasoning and Natural Language Length Extrapolation
Ta-Chung Chi, Ting-Han Fan, Alexander I. Rudnicky, Peter J. Ramadge
TL;DRRegularGPT 是一种新型 Transformer 变体,通过 Weight-Sharing、Adaptive-Depth 和 Sliding-Dilated-Attention 实现基于深度的工作记忆,并成功地对 PARITY 等正则语言进行建模,并在自然语言长度外推任务中表现出了出乎意料的效果,重新发现了以前工作中视为长度外推必要的局部窗口化注意机制。