探究有效扩展 Transformer 用于长输入摘要

Aug, 2022

探究有效扩展 Transformer 用于长输入摘要

Investigating Efficiently Extending Transformers for Long Input Summarization

Jason Phang, Yao Zhao, Peter J. Liu

TL;DR本文研究了使用预训练 Transformer 模型进行长输入摘要所面临的挑战，并通过实验提出了一种新的模型 PEGASUS-X，在不需要并行训练和添加很多参数的情况下，能够高效地处理长度超过常规预训练模型最大输入长度的输入，并在长输入摘要任务中达到了比较强的性能表现。

Abstract

While large pretrained transformer models have proven highly capable at tackling natural language tasks, handling long sequence inputs continues to be a significant challenge. One such task is long input

pretrained transformer long sequence inputs summarization model architectural changes pegasus-x

发现论文，激发创造

LongT5: 高效的长序列文本转换器

本文介绍了一种新模型 LongT5，该模型将长输入变换（ETC）的注意力机制和摘要预训练（PEGASUS）的预训练策略整合到可扩展的 T5 架构中，取得了更好的自然语言摘要和问答系统结果。

Dec, 2021

使用提取的间隔句子进行摘要式预训练的 PEGASUS

该研究提出了一种新的自监督目标，将重要的句子从输入文档中删除 / 掩盖，并从剩余的句子中生成一个输出序列，类似于抽取式摘要，PEGASUS 模型在 12 个文本摘要任务中均取得了最先进的 ROUGE 得分，并在只有 1000 个样例的 6 个数据集上超越了先前的最先进结果，同时在人类评估方面也取得了良好表现。

Dec, 2019

局部关注和内容选择实现的长篇摘要

本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖，并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验，证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外，与现有算法相比，在没有大规模 GPU 计算机卡的情况下，本研究的方法也可以实现相当或更好的结果。

May, 2021

调整预训练的文本 - 文本模型以适应长文本序列

本文介绍了一项关于预训练模型适应长序列输入的经验研究，并提出一种构建长上下文模型的有效方法，包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终，研究人员成功构建出具有竞争性的长文本问答模型，并在五个长文本摘要数据集上取得了新的性能最高记录。

Sep, 2022

通过同步实现长序列高效编码

本研究提出一种基于同步机制的层次编码方法，将长的输入序列分段处理并在 Transformer 层内利用自注意力机制对锚点嵌入进行同步，从而改善了不同类型长输入文本数据的全局信息交流。

Mar, 2022

预训练变形金刚模型在抽象摘要中的有效适应性

本文探讨使用预训练的 Transformer 语言模型来进行文本摘要的实现，提出了基于源嵌入和领域自适应训练的方法，并在三个摘要数据集上进行了测试，并在其中两个数据集上取得了新的最佳表现。结果表明，该方法能够产生更专注的摘要，并且对于更抽象的数据集表现得更加明显。

Jun, 2019

HEGEL：用于长文档摘要的超图变换器

本文提出了一种名为 HEGEL 的超图神经网络方法来解决长文本提取式摘要中跨句子关系建模难的问题，通过捕捉高阶跨句子关系来更新和学习有效的句子表示，并融合包括潜在主题、关键词、指代和章节结构等不同类型的句子依赖，实验证明其有效性和高效性。

Oct, 2022

长文档摘要的高效注意力机制

本文提出了 Hepos，一种新颖的有效的编码器 - 解码器关注机制，结合 Hepos，我们能够处理比使用全注意力的现有模型多 10 倍的令牌，有别于现有的高斯自注意机制。同时，我们还展示了新的包含非常长的文档和总结的数据集 GovReport，并且试验结果表明，我们的模型产生的 ROUGE 得分明显高于竞争对手比较，包括 PubMed 上的最新最先进的结果，人类评估也表明，我们的模型产生更多有用信息的总结。

Apr, 2021

Unlimiformer: 具有无限长度输入的长程 Transformer

这篇论文提出了一种名为 Unlimiformer 的新方法，可以在不需要修改模型代码或增加学习的权重的情况下，将具有谷歌的长文本模型 Longformer 和 Facebook 的 BART 等预训练模型拓展到可输入无限长度的输入序列，并在多篇文档摘要任务上表现出很高的效果。

May, 2023

无监督摘要重新排名

本文提出一种无监督的方法，对摘要生成的可选方案进行重新排名，以缩小无监督和有监督模型之间的性能差距。与四个广泛采用的摘要基准相比，该方法将预训练的无监督 PEGASUS 的相关平均 ROUGE 增加了 4.37% 至 7.27%，并在 30 个转移设置中实现了 7.51% 的相对增益（高达 23.73%）。

Dec, 2022