Aug, 2023

分割、对齐、选择:一种用于 Transformer 的简单长序列处理方法

TL;DR通过将每个长序列输入分割成一批块,并在编码步骤中对块间信息进行对齐,我们提出了一个简单的框架,使通用的预训练 Transformer 能够处理更长的序列,同时计算和内存成本与输入序列长度线性增长。通过在每个编码 Transformer 模块中对块中的起始和结束标记嵌入进行对齐,我们能够提取块间语义信息。为了学习一个有效的隐藏状态选择策略,我们设计了一个受强化学习启发的双重更新方案,将 Transformer 的解码器视为环境,并将下游性能指标作为奖励来评估隐藏状态选择动作。我们在真实世界的长文本摘要和阅读理解任务上的实证结果表明,与之前的长序列处理基准相比,我们取得了有效的改进。