Aug, 2022

探究有效扩展 Transformer 用于长输入摘要

TL;DR本文研究了使用预训练 Transformer 模型进行长输入摘要所面临的挑战,并通过实验提出了一种新的模型 PEGASUS-X,在不需要并行训练和添加很多参数的情况下,能够高效地处理长度超过常规预训练模型最大输入长度的输入,并在长输入摘要任务中达到了比较强的性能表现。