May, 2023

Transformer 工作记忆促进正则语言推理和自然语言长度外推

TL;DRRegularGPT 是一种新型 Transformer 变体,通过 Weight-Sharing、Adaptive-Depth 和 Sliding-Dilated-Attention 实现基于深度的工作记忆,并成功地对 PARITY 等正则语言进行建模,并在自然语言长度外推任务中表现出了出乎意料的效果,重新发现了以前工作中视为长度外推必要的局部窗口化注意机制。