分割、对齐、选择：一种用于 Transformer 的简单长序列处理方法

Aug, 2023

分割、对齐、选择：一种用于 Transformer 的简单长序列处理方法

Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers

Jiawen Xie, Pengyu Cheng, Xiao Liang, Yong Dai, Nan Du

TL;DR通过将每个长序列输入分割成一批块，并在编码步骤中对块间信息进行对齐，我们提出了一个简单的框架，使通用的预训练 Transformer 能够处理更长的序列，同时计算和内存成本与输入序列长度线性增长。通过在每个编码 Transformer 模块中对块中的起始和结束标记嵌入进行对齐，我们能够提取块间语义信息。为了学习一个有效的隐藏状态选择策略，我们设计了一个受强化学习启发的双重更新方案，将 Transformer 的解码器视为环境，并将下游性能指标作为奖励来评估隐藏状态选择动作。我们在真实世界的长文本摘要和阅读理解任务上的实证结果表明，与之前的长序列处理基准相比，我们取得了有效的改进。

Abstract

Although dominant in natural language processing, transformer-based models remain challenged by the task of long-sequence processing, because the computational cost of self-attention operations in transformers sw

transformer-based models long-sequence processing pre-trained transformers inter-chunk semantic information hidden selection policy

发现论文，激发创造

通过同步实现长序列高效编码

本研究提出一种基于同步机制的层次编码方法，将长的输入序列分段处理并在 Transformer 层内利用自注意力机制对锚点嵌入进行同步，从而改善了不同类型长输入文本数据的全局信息交流。

Mar, 2022

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

基于位移切块的时空表示学习变压器

本研究针对视频分类问题，提出了一种基于 Transformer 与自注意力机制的空时表示学习方法，其中采用 shifted chunk Transformer 对视频帧间数据进行建模，通过局部到全局的多层次学习，构建了视频片段编码器，加强了长期时间依赖的建模能力，并在 Kinetics-400、Kinetics-600、UCF101 和 HMDB51 四个数据集上取得了优于现有最优结果的性能。

Aug, 2021

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

SEAL：基于段落的提取 - 抽象长文本摘要

该论文提出了一种基于 Transformer 的模型 SEAL，用于长篇抽象文本摘要，模型具有可解释性，同时可以使用原始文档和摘要提供弱监督学习信号。该模型在现有长篇摘要任务上取得了最佳结果，并在新的数据集 / 任务 Search2Wiki 上优于强基线模型。

Jun, 2020

使用分层学习生成长源序列

本研究设计并研究了一种新的分层注意力 Transformer 架构（HAT），在几个序列到序列任务中优于标准 Transformer，包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线，并通过可视化分层编解码器注意力来研究了分层层次的理解，最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。

Apr, 2021

Cluster-Former: 基于聚类的稀疏变形器，用于长距离依赖编码

本研究提出了一种基于聚类的稀疏 Transformer 模型，它由滑动窗口层和 Cluster-Former 层组成，能够跨越窗口编码本地序列信息和全局上下文信息，这种新的设计在回答具有长程依赖性的问题时尤其有益，实验结果表明其在多项 QA 基准测试中实现了最先进的性能。

Sep, 2020

为长上下文理解的 Transformer 装备随机访问读取

长文本建模提出了对基于 Transformer 的大型语言模型（LLMs）的重大挑战，我们提出了一种新的阅读策略，即随机访问，可以使 Transformer 模型在处理长文档时高效地跳过不相关的标记。通过预训练、微调和推理阶段的实验证明了我们方法的有效性。

May, 2024

突破标记障碍：BERT 进行高效长文本分类的分块和卷积

本文提出了一种相对简单的对原有 BERT 模型的扩展方法，称为 ChunkBERT，它可以允许在任意长文本上进行预训练模型的微调和推理，实验证明使用 ChunkBERT 方法微调的 BERT 模型在长文本分类任务上表现一致，并且仅占用原始内存的一小部分（6.25%）。

Oct, 2023

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023