探究有效扩展 Transformer 用于长输入摘要
本文介绍了一种新模型 LongT5,该模型将长输入变换(ETC)的注意力机制和摘要预训练(PEGASUS)的预训练策略整合到可扩展的 T5 架构中,取得了更好的自然语言摘要和问答系统结果。
Dec, 2021
该研究提出了一种新的自监督目标,将重要的句子从输入文档中删除 / 掩盖,并从剩余的句子中生成一个输出序列,类似于抽取式摘要,PEGASUS 模型在 12 个文本摘要任务中均取得了最先进的 ROUGE 得分,并在只有 1000 个样例的 6 个数据集上超越了先前的最先进结果,同时在人类评估方面也取得了良好表现。
Dec, 2019
本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖,并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验,证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外,与现有算法相比,在没有大规模 GPU 计算机卡的情况下,本研究的方法也可以实现相当或更好的结果。
May, 2021
本文介绍了一项关于预训练模型适应长序列输入的经验研究,并提出一种构建长上下文模型的有效方法,包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终,研究人员成功构建出具有竞争性的长文本问答模型,并在五个长文本摘要数据集上取得了新的性能最高记录。
Sep, 2022
本研究提出一种基于同步机制的层次编码方法,将长的输入序列分段处理并在 Transformer 层内利用自注意力机制对锚点嵌入进行同步,从而改善了不同类型长输入文本数据的全局信息交流。
Mar, 2022
本文探讨使用预训练的 Transformer 语言模型来进行文本摘要的实现,提出了基于源嵌入和领域自适应训练的方法,并在三个摘要数据集上进行了测试,并在其中两个数据集上取得了新的最佳表现。结果表明,该方法能够产生更专注的摘要,并且对于更抽象的数据集表现得更加明显。
Jun, 2019
本文提出了一种名为 HEGEL 的超图神经网络方法来解决长文本提取式摘要中跨句子关系建模难的问题,通过捕捉高阶跨句子关系来更新和学习有效的句子表示,并融合包括潜在主题、关键词、指代和章节结构等不同类型的句子依赖,实验证明其有效性和高效性。
Oct, 2022
本文提出了 Hepos,一种新颖的有效的编码器 - 解码器关注机制,结合 Hepos,我们能够处理比使用全注意力的现有模型多 10 倍的令牌,有别于现有的高斯自注意机制。同时,我们还展示了新的包含非常长的文档和总结的数据集 GovReport,并且试验结果表明,我们的模型产生的 ROUGE 得分明显高于竞争对手比较,包括 PubMed 上的最新最先进的结果,人类评估也表明,我们的模型产生更多有用信息的总结。
Apr, 2021
这篇论文提出了一种名为 Unlimiformer 的新方法,可以在不需要修改模型代码或增加学习的权重的情况下,将具有谷歌的长文本模型 Longformer 和 Facebook 的 BART 等预训练模型拓展到可输入无限长度的输入序列,并在多篇文档摘要任务上表现出很高的效果。
May, 2023
本文提出一种无监督的方法,对摘要生成的可选方案进行重新排名,以缩小无监督和有监督模型之间的性能差距。与四个广泛采用的摘要基准相比,该方法将预训练的无监督 PEGASUS 的相关平均 ROUGE 增加了 4.37% 至 7.27%,并在 30 个转移设置中实现了 7.51% 的相对增益(高达 23.73%)。
Dec, 2022