May, 2023
Transformer工作记忆促进正则语言推理和自然语言长度外推
Transformer Working Memory Enables Regular Language Reasoning and
Natural Language Length Extrapolation
TL;DRRegularGPT是一种新型Transformer变体,通过Weight-Sharing、Adaptive-Depth和Sliding-Dilated-Attention实现基于深度的工作记忆,并成功地对PARITY等正则语言进行建模,并在自然语言长度外推任务中表现出了出乎意料的效果,重新发现了以前工作中视为长度外推必要的局部窗口化注意机制。