中间不再迷失：通过增强注意力来提升大型语言模型在问答任务中的表现

Nov, 2023

中间不再迷失：通过增强注意力来提升大型语言模型在问答任务中的表现

Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question Answering

He Junqing, Pan Kunhao, Dong Xiaoqun, Song Zhuoyang, Liu Yibo...

TL;DR通过 Attention Strengthening Multi-doc QA 任务，本文提出了一种增强长文本上大语言模型（LLMs）信息搜索以及反思能力的方法，实验证明在 Multi-doc QA 和其他基准测试中相比最先进模型，我们的模型在乱序设置下取得了 13.7％绝对增益，以及在段落检索任务中取得了 21.5％的改进。我们将我们的模型 Ziya-Reader 发布出来，以促进相关研究在社区中的开展。

Abstract

While large language models (LLMs) are equipped with longer text input capabilities than before, they are struggling to seek correct information in long contexts. The "lost in the middle" problem challenges most LLMs, referring to the dramatic decline in accuracy when correct informati

large language models information searching reflection ability attention strengthening multi-doc qa ziya-reader

发现论文，激发创造

位于中间：校准位置注意偏差以改进长上下文利用

长文本中，大语言模型存在失效过中间信息的问题，我们通过研究发现这一现象与其内在的注意力偏差有关，而通过中间定位机制可以解决这一问题，并在检索增强生成任务中表现出更好的性能。

Jun, 2024

注意力指令：通过提示增强中间的注意力

扩展大型语言模型的上下文窗口到 128k 个标记或更多，然而，语言模型仍然存在位置偏见和难以使用上下文的中间部分的问题，我们通过指导语言模型分配更多的关注于选定的上下文片段来研究 LLM 的相对位置感知性和缓解不均衡关注的可行性，我们对基于位置和索引的指令进行了多文档问答任务的全面研究，发现语言模型对上下文的相对位置没有意识，但它们展示了使用匹配索引调整关注于特定片段的能力，我们的分析深化了对 LLM 中位置偏见的理解，并提供了通过指导缓解此偏见的途径，从而使 LLM 在 RAG 应用中定位和利用检索文档中的相关信息。

Jun, 2024

迷失在中间：语言模型如何使用长上下文

我们分析了语言模型在多文档问答和键值检索两个任务中的性能，发现当相关信息出现在输入上下文的开头或结尾时，性能通常最高，而在长上下文中访问相关信息时性能显著下降。此外，随着输入上下文的增长，性能显著降低，即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解，并为未来的长上下文模型提供了新的评估协议。

Jul, 2023

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

充分利用上下文的 LLM

通过信息密集型（IN2）训练，我们提出了一种完全数据驱动的解决方案来克服长上下文的缺失问题，该方法能够有效地利用长上下文中的信息，并且在现实世界的长上下文任务中显著提高性能。

Apr, 2024

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

BeamSearchQA: 大型语言模型是强大的零样本问答求解器

本研究提出了一个名为 BeamSearchQA 的新型问题回答管道，它通过使用大型语言模型迭代地生成关于原始问题的新问题，从而启用一个迭代推理过程，以便更好地捕捉和利用隐藏知识。实验结果表明，BeamSearchQA 明显优于其他零 - shot 基线，在处理开放性领域问题回答方面具有很强的有效性。

May, 2023

利用大型语言模型和检索加强生成来提高教科书问答任务

该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法，以处理复杂的语境和多模态数据，并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG，我们的架构在非图表多项选择题中相较于基线模型，在验证集上精度提升了 4.12%，在测试集上提升了 9.84%。

Feb, 2024

利用预训练和大型语言模型提升社区问答中的答案选择

本文提出了使用预训练模型的 Question-Answer 交叉注意网络（QAN）进行回答选择，并利用大型语言模型（LLM）来进行具有知识增强的回答选择。实验证明，QAN 模型在 SemEval2015 和 SemEval2017 数据集上实现了最新的性能。同时，LLM 利用外部知识进行问题和正确答案的知识增强，并通过不同方面对 LLM 的提示进行优化，结果表明外部知识的引入可以提高 LLM 在 SemEval2015 和 SemEval2017 数据集上的正确答案选择率，同时通过优化提示，LLM 也能在更多问题上选择正确的答案。

Nov, 2023