简单的本地关注机制在长时序任务中保持竞争力
本文研究了在长文本摘要场景中采用限定范围的模型是否能够提供比具有全局范围的模型更高的性能,并探讨了在不同层次(从句子到文档)的三种文本局部性,实验结果表明,采用局部化建模策略的模型具有更好的性能。
May, 2022
本文提出了一种局部自注意力机制,用于解决检索过程中考虑前 n 个单词导致系统检索长文档时出现偏差的问题,并在 TREC 2019 深度学习排行榜任务上取得了显著的检索质量提升。
May, 2020
比较研究了多种 Transformer 模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。
Feb, 2022
本文介绍了一项关于预训练模型适应长序列输入的经验研究,并提出一种构建长上下文模型的有效方法,包括采用池化增强分块注意力替换 transformers 中的全局注意力机制、采用不同长度的遮盖跨度预测任务、使用随机串联的短文档等。最终,研究人员成功构建出具有竞争性的长文本问答模型,并在五个长文本摘要数据集上取得了新的性能最高记录。
Sep, 2022
本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖,并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验,证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外,与现有算法相比,在没有大规模 GPU 计算机卡的情况下,本研究的方法也可以实现相当或更好的结果。
May, 2021
Fovea Transformer 是一种以长 - context 为中心的 Transformer 模型,通过在输入序列中构建一个多尺度树来提高模型对全局依赖性的捕捉能力,并在长 - context 摘要任务上取得了最先进的性能。
Nov, 2023
通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合,结合文档长度线性扩展的小的注意力层,我们得到了与当前最先进模型竞争力的结果,特别是在冻结底层 transformers 的情况下,有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。
Jul, 2023
本篇论文提出了一种新型基于 transformer 的 1D 和 2D 位置感知注意力机制,实验结果表明,该模型在进行长篇文档理解时具有优势,易于基于其他基于 transformer 的架构进行扩展。
Aug, 2022
Longformer 是一种基于 Transformers 的模型,采用能够线性缩放序列长度的自注意力机制,使得处理数千个记号以上的文档变得容易;与先前的一些工作不同的是,Longformer 同时进行了预训练和下游任务的微调,并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外,Longformer 还引入了 Longformer-Encoder-Decoder(LED)以支持长文档的生成序列对序列任务。
Apr, 2020
当前语言模型在生成过程中常常无法高效地整合长文本上下文。我们发现这个问题的主要原因是在预训练过程中很可能学到的注意力先验知识:文本上下文中较早出现的相关信息平均上受到较少关注。然而,即使模型未能使用相关文档的信息来生成回答,它们在同一位置上仍然会对与无关文档相比表现出更多关注。基于这一事实,我们利用 “注意力排序” 来改进长文本模型的性能:在解码过程中进行一步操作,以所接收到的注意力对文档进行排序(最高注意力排序最后),然后重复该过程,生成新排序文本的回答。我们的研究结果突出了使用现成的语言模型进行检索增强生成时的一些挑战。
Sep, 2023