LongT5: 高效的长序列文本转换器

ACLDec, 2021

LongT5: Efficient Text-To-Text Transformer for Long Sequences

Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni...

TL;DR本文介绍了一种新模型 LongT5，该模型将长输入变换（ETC）的注意力机制和摘要预训练（PEGASUS）的预训练策略整合到可扩展的 T5 架构中，取得了更好的自然语言摘要和问答系统结果。

Abstract

Recent work has shown that either (1) increasing the input length or (2) increasing model size can improve the performance of Transformer-based neural models. In this paper, we present a new model, called longt5, with which we explore the effects of →

transformer-based neural models longt5 scaling attention mechanisms summarization tasks

发现论文，激发创造

mLongT5：针对更长序列的多语言高效文本转换器

本文介绍了我们关于开发一种适用于处理长输入的多语言高效文本到文本转换器的工作，称为 mLongT5 (即在 LongT5 架构上构建并利用用于预训练 mT5 和 UL2 预训练任务的多语言数据集)，我们评估了该模型在各种多语言摘要和问答任务上的表现，并与现有的多语言模型（如 mBART 或 M-BERT）进行了比较，表明 mLongT5 相对于这些模型具有更强的性能。

May, 2023

探究有效扩展 Transformer 用于长输入摘要

本文研究了使用预训练 Transformer 模型进行长输入摘要所面临的挑战，并通过实验提出了一种新的模型 PEGASUS-X，在不需要并行训练和添加很多参数的情况下，能够高效地处理长度超过常规预训练模型最大输入长度的输入，并在长输入摘要任务中达到了比较强的性能表现。

Aug, 2022

CoLT5: 带有条件计算的更快速的长距离 Transformer

提出了 CoLT5，它是一种长输入 Transformer 模型，通过采用条件计算来利用重要令牌，取得了比 LongT5 更强的性能，特别适用于长文本。有效地利用了长达 64k 字符的输入，取得了 SCROLLS 基准测试的 SOTA。

Mar, 2023

ETC：在 Transformer 中编码长且结构化的输入

本文介绍了一种新的 Transformer 架构 ——Extended Transformer Construction（ETC），该架构解决了标准 Transformer 架构的两个关键挑战，即扩展输入长度和编码结构化输入，并且通过将全局 - 局部注意力机制与相对位置编码以及对比预测编码（CPC）预训练目标结合使用，实现了对结构化输入的编码和处理，在需要长或结构化输入的四个自然语言数据集上取得了领先的成果。

Apr, 2020

注意力对齐和灵活位置嵌入改进了 Transformer 长度外推

提出两种通过温度缩放实现的注意力对齐策略，改善了 T5 在语言建模、检索和多文档问答中对长篇文本的应用能力，无需进行微调。

Nov, 2023

调整预训练的文本 - 文本模型以适应长文本序列

本文介绍了一项关于预训练模型适应长序列输入的经验研究，并提出一种构建长上下文模型的有效方法，包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终，研究人员成功构建出具有竞争性的长文本问答模型，并在五个长文本摘要数据集上取得了新的性能最高记录。

Sep, 2022

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

基于线性关注力模型建模上下文，实现可扩展的文档级翻译

本文研究了一种基于 Peng et al. (2021) 的线性注意力模型，并通过句子门促进最近归纳偏置，以提高文档级机器翻译的效能和翻译质量，并在 IWSLT 2015 和 OpenSubtitles 2018 上进行了评估和测试，结果表明该模型在长序列的解码速度方面有大幅提高，且翻译得分相似或更高，并展示了句子门进一步提高了 IWSLT 上的翻译质量。

Oct, 2022

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

LongNet: 将 Transformer 扩展到 10 亿个标记

LongNet 是 Transformer 的一种变体，引入了扩张注意力（dilated attention）来扩展序列长度，使其能够处理超过 10 亿个标记的序列，同时不会牺牲短序列的性能表现。

Jul, 2023