注意力排序在长上下文语言模型中对抗最近偏差

Sep, 2023

注意力排序在长上下文语言模型中对抗最近偏差

Attention Sorting Combats Recency Bias In Long Context Language Models

Alexander Peysakhovich, Adam Lerer

TL;DR当前语言模型在生成过程中常常无法高效地整合长文本上下文。我们发现这个问题的主要原因是在预训练过程中很可能学到的注意力先验知识：文本上下文中较早出现的相关信息平均上受到较少关注。然而，即使模型未能使用相关文档的信息来生成回答，它们在同一位置上仍然会对与无关文档相比表现出更多关注。基于这一事实，我们利用 “注意力排序” 来改进长文本模型的性能：在解码过程中进行一步操作，以所接收到的注意力对文档进行排序（最高注意力排序最后），然后重复该过程，生成新排序文本的回答。我们的研究结果突出了使用现成的语言模型进行检索增强生成时的一些挑战。

Abstract

Current language models often fail to incorporate long contexts efficiently during generation. We show that a major contributor to this issue are attention priors that are likely learned during pre-training: relevant information located earlier in context is attended to less on average

language models attention priors attention sorting long context retrieval augmented generation

发现论文，激发创造

抽象文本摘要中的地域性优化

本文研究了在长文本摘要场景中采用限定范围的模型是否能够提供比具有全局范围的模型更高的性能，并探讨了在不同层次（从句子到文档）的三种文本局部性，实验结果表明，采用局部化建模策略的模型具有更好的性能。

May, 2022

简单的本地关注机制在长时序任务中保持竞争力

本研究通过大规模的控制实验，分析了不同的长距离注意力机制，研究发现，即使使用相同的预训练数据集与微调过程，采用简单的局部窗口注意力机制仍然能够胜任大部分任务，而且采用分离的局部注意力机制可以构建一个更为简单和高效的长文档问答模型，达到与 Longformer 半数的预训练计算相匹配的性能。

Dec, 2021

不同位置感知机制理解长文档

本篇论文提出了一种新型基于 transformer 的 1D 和 2D 位置感知注意力机制，实验结果表明，该模型在进行长篇文档理解时具有优势，易于基于其他基于 transformer 的架构进行扩展。

Aug, 2022

迷失在中间：语言模型如何使用长上下文

我们分析了语言模型在多文档问答和键值检索两个任务中的性能，发现当相关信息出现在输入上下文的开头或结尾时，性能通常最高，而在长上下文中访问相关信息时性能显著下降。此外，随着输入上下文的增长，性能显著降低，即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解，并为未来的长上下文模型提供了新的评估协议。

Jul, 2023

注意力指令：通过提示增强中间的注意力

扩展大型语言模型的上下文窗口到 128k 个标记或更多，然而，语言模型仍然存在位置偏见和难以使用上下文的中间部分的问题，我们通过指导语言模型分配更多的关注于选定的上下文片段来研究 LLM 的相对位置感知性和缓解不均衡关注的可行性，我们对基于位置和索引的指令进行了多文档问答任务的全面研究，发现语言模型对上下文的相对位置没有意识，但它们展示了使用匹配索引调整关注于特定片段的能力，我们的分析深化了对 LLM 中位置偏见的理解，并提供了通过指导缓解此偏见的途径，从而使 LLM 在 RAG 应用中定位和利用检索文档中的相关信息。

Jun, 2024

提高长文本层面机器翻译质量

文档级上下文对神经机器翻译至关重要，然而仅仅增加本地上下文的大小并不能捕捉到整个上下文信息，而这些挑战可以通过引入受限的注意力机制来解决，并在低资源情况下实现良好的折衷方案。

Jun, 2023

为长上下文理解的 Transformer 装备随机访问读取

长文本建模提出了对基于 Transformer 的大型语言模型（LLMs）的重大挑战，我们提出了一种新的阅读策略，即随机访问，可以使 Transformer 模型在处理长文档时高效地跳过不相关的标记。通过预训练、微调和推理阶段的实验证明了我们方法的有效性。

May, 2024

位于中间：校准位置注意偏差以改进长上下文利用

长文本中，大语言模型存在失效过中间信息的问题，我们通过研究发现这一现象与其内在的注意力偏差有关，而通过中间定位机制可以解决这一问题，并在检索增强生成任务中表现出更好的性能。

Jun, 2024

噪声排除：测试预训练语言模型信息处理的鲁棒性

本研究通过让模型处理带有分散注意力内容的填空任务，检验了预训练语言模型利用关键上下文信息的能力；研究结果表明，模型往往只是依靠表面上与上下文有关的信息进行预测，而对于上下文语境的理解能力不及预期。

Sep, 2021

检索式机制解释长上下文真实性

通过系统调查，发现特定类型的注意力头在检索信息和长范文本中具有重要作用，称之为检索头，它们在转换器模型中普遍存在，稀疏且动态激活，对于链接思考推理和避免虚幻现象有深远影响。

Apr, 2024