不同位置感知机制理解长文档
自从发布以来,Transformer 已经在许多领域中进行了革命,从自然语言理解到计算机视觉。然而,自注意力操作的计算复杂性限制了其处理大序列的能力。本文探讨了多种策略,以将基于 Transformer 的模型应用于长篇多页文档的情况。我们引入了两种新的多模态(文本 + 布局)长程模型,它们基于针对长序列的高效 Transformer 实现。长程模型可有效地一次处理整个文档,并且对文档的长度不那么敏感。我们将其与 LayoutLM 进行了比较,LayoutLM 是一种经过调整以适应文档理解并在数百万文档上进行预训练的经典 Transformer。我们进一步提出了 2D 相对注意力偏置,以引导自注意力指向相关的标记,同时不影响模型效率。我们观察到,在信息检索方面,对于多页商业文档,可以在较小的序列上带来小幅性能提升。相对的 2D 注意力在密集文本上对普通和长程模型均有效。
Sep, 2023
本研究使用稀疏注意力机制和分层变换器方法,对基于 Transformers 的长文本分类进行比较,探讨了四个文本分类数据集,并得出了实际应用此方法的实用建议。
Apr, 2022
本文提出了一种针对单个较长文档(如研究论文)进行抽象概括的模型,采用新的分层编码器对文章进行语篇结构建模,并运用有意识的编码器生成摘要,实验证明该模型显著优于现有模型。
Apr, 2018
长文本建模提出了对基于 Transformer 的大型语言模型(LLMs)的重大挑战,我们提出了一种新的阅读策略,即随机访问,可以使 Transformer 模型在处理长文档时高效地跳过不相关的标记。通过预训练、微调和推理阶段的实验证明了我们方法的有效性。
May, 2024
本研究通过大规模的控制实验,分析了不同的长距离注意力机制,研究发现,即使使用相同的预训练数据集与微调过程,采用简单的局部窗口注意力机制仍然能够胜任大部分任务,而且采用分离的局部注意力机制可以构建一个更为简单和高效的长文档问答模型,达到与 Longformer 半数的预训练计算相匹配的性能。
Dec, 2021
通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合,结合文档长度线性扩展的小的注意力层,我们得到了与当前最先进模型竞争力的结果,特别是在冻结底层 transformers 的情况下,有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。
Jul, 2023
本文提出使用图注意力网络在可用的预训练 Transformer 模型之上来学习文档嵌入,并基于该模型设计简单的对比学习策略,在大量无标签语料库上预训练模型。经验证明,我们的方法在文档分类和文档检索任务中是有效的。
Oct, 2021
本文研究了一种基于 Peng et al. (2021) 的线性注意力模型,并通过句子门促进最近归纳偏置,以提高文档级机器翻译的效能和翻译质量,并在 IWSLT 2015 和 OpenSubtitles 2018 上进行了评估和测试,结果表明该模型在长序列的解码速度方面有大幅提高,且翻译得分相似或更高,并展示了句子门进一步提高了 IWSLT 上的翻译质量。
Oct, 2022
本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖,并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验,证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外,与现有算法相比,在没有大规模 GPU 计算机卡的情况下,本研究的方法也可以实现相当或更好的结果。
May, 2021
当前语言模型在生成过程中常常无法高效地整合长文本上下文。我们发现这个问题的主要原因是在预训练过程中很可能学到的注意力先验知识:文本上下文中较早出现的相关信息平均上受到较少关注。然而,即使模型未能使用相关文档的信息来生成回答,它们在同一位置上仍然会对与无关文档相比表现出更多关注。基于这一事实,我们利用 “注意力排序” 来改进长文本模型的性能:在解码过程中进行一步操作,以所接收到的注意力对文档进行排序(最高注意力排序最后),然后重复该过程,生成新排序文本的回答。我们的研究结果突出了使用现成的语言模型进行检索增强生成时的一些挑战。
Sep, 2023