Sep, 2022

调整预训练的文本 - 文本模型以适应长文本序列

TL;DR本文介绍了一项关于预训练模型适应长序列输入的经验研究,并提出一种构建长上下文模型的有效方法,包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终,研究人员成功构建出具有竞争性的长文本问答模型,并在五个长文本摘要数据集上取得了新的性能最高记录。