注意力指令：通过提示增强中间的注意力

Jun, 2024

注意力指令：通过提示增强中间的注意力

Attention Instruction: Amplifying Attention in the Middle via Prompting

Meiru Zhang, Zaiqiao Meng, Nigel Collier

TL;DR扩展大型语言模型的上下文窗口到 128k 个标记或更多，然而，语言模型仍然存在位置偏见和难以使用上下文的中间部分的问题，我们通过指导语言模型分配更多的关注于选定的上下文片段来研究 LLM 的相对位置感知性和缓解不均衡关注的可行性，我们对基于位置和索引的指令进行了多文档问答任务的全面研究，发现语言模型对上下文的相对位置没有意识，但它们展示了使用匹配索引调整关注于特定片段的能力，我们的分析深化了对 LLM 中位置偏见的理解，并提供了通过指导缓解此偏见的途径，从而使 LLM 在 RAG 应用中定位和利用检索文档中的相关信息。

Abstract

The context window of large language models has been extended to 128k tokens or more. However, language models still suffer from position bias and have difficulty in accessing and using the middle part of the con

large language models position bias attention relative position awareness mitigating attention bias

发现论文，激发创造

位于中间：校准位置注意偏差以改进长上下文利用

长文本中，大语言模型存在失效过中间信息的问题，我们通过研究发现这一现象与其内在的注意力偏差有关，而通过中间定位机制可以解决这一问题，并在检索增强生成任务中表现出更好的性能。

Jun, 2024

通过缩放单一维度来减轻大型语言模型的位置偏见

本文研究了大型语言模型中的位置偏见问题，发现注意力权重和因果性注意掩码是位置偏见的微观表现，提出了通过调整位置隐状态来减轻位置偏见的方法，并通过在多个任务上进行实验验证了该方法的有效性和普适性。

Jun, 2024

中间不再迷失：通过增强注意力来提升大型语言模型在问答任务中的表现

通过 Attention Strengthening Multi-doc QA 任务，本文提出了一种增强长文本上大语言模型（LLMs）信息搜索以及反思能力的方法，实验证明在 Multi-doc QA 和其他基准测试中相比最先进模型，我们的模型在乱序设置下取得了 13.7％绝对增益，以及在段落检索任务中取得了 21.5％的改进。我们将我们的模型 Ziya-Reader 发布出来，以促进相关研究在社区中的开展。

Nov, 2023

大型语言模型中的指导位置在序列生成中的作用

通过改变任务指令在输入句子之后的位置，我们提出了一种增强大型语言模型的指令遵循功能的方法，该方法可以显著改善条件序列生成的零样本性能。

Aug, 2023

论注意力在提示调整中的作用

本文针对单层的注意力机制和上下文混合模型，探究了 Prompt-tuning 的策略，并分析了 Prompt 在梯度下降过程中学到的规律和其在上下文中的表现，最终提出了有关 Prompt-tuning 的理论解释和实验验证。

Jun, 2023

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

大型语言模型的上下文忠实提示

本文探讨了大型语言模型在知识获取任务中通过设计启示策略，特别是意见为基础的提示和反事实演示，有效提高了上下文的真实性，并在三个数据集上进行实验，结果表明在上下文中的忠实度有了显著提高。

Mar, 2023

位置工程：通过位置信息调整提升大型语言模型

通过改变提示文本的位置信息而不修改文本本身，位置工程在大型语言模型中提供一种更高效的引导方式，从而在检索增强生成和上下文学习两种常见情景中显著改进了基线性能，因此代表着一种利用大型语言模型能力的有前景的新策略。

Apr, 2024

注意力排序在长上下文语言模型中对抗最近偏差

当前语言模型在生成过程中常常无法高效地整合长文本上下文。我们发现这个问题的主要原因是在预训练过程中很可能学到的注意力先验知识：文本上下文中较早出现的相关信息平均上受到较少关注。然而，即使模型未能使用相关文档的信息来生成回答，它们在同一位置上仍然会对与无关文档相比表现出更多关注。基于这一事实，我们利用 “注意力排序” 来改进长文本模型的性能：在解码过程中进行一步操作，以所接收到的注意力对文档进行排序（最高注意力排序最后），然后重复该过程，生成新排序文本的回答。我们的研究结果突出了使用现成的语言模型进行检索增强生成时的一些挑战。

Sep, 2023