弥补上下文差距：利用共指解析增强长文本理解

Oct, 2024

弥补上下文差距：利用共指解析增强长文本理解

Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding

Yanming Liu, Xinyue Peng, Jiannan Cao, Shi Bo, Yanxin Shen...

TL;DR本研究针对大型语言模型在理解长文本和有效问答时面临的挑战，提出了一种名为长问共指适应（LQCA）的方法，旨在优化共指解析以更好地处理长上下文。通过系统性地处理信息，该方法提高了模型的理解能力，实验证明在多个数据集和LLM上表现显著优于传统方法。

Abstract

Large Language Models (LLMs) have shown remarkable capabilities in Natural Language Processing; however, they still face difficulties when tasked with understanding lengthy contexts and executing effective

发现论文，激发创造

通过利用词接近网络实现对篇章的对话问答

该研究旨在解决目前有关与话题相关的关于文本段落的会话式问答中存在的两个研究挑战。该文提出了一种无监督但有效的系统，名为CROWN，它使用大型语料库构建一个单词相似性网络，并通过该网络将上下文引入返回的段落中，以对问答进行排名，并在TREC CAsT数据中实现中等以上表现。

Apr, 2020

利用潜在知识和对话上下文实现真实世界会话问答

该论文提出了一种基于神经检索-阅读(Retrieval-Reading)系统和基于TFIDF的文本摘要技术来利用先前的谈话历史中的潜在知识的方法，以便更好地回答问题，并且实验证明该系统显著提高了回答质量。

Dec, 2022

检索与长上下文大语言模型的融合

通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案，我们发现使用简单的检索增强在生成时可以实现与微调后的具有16K上下文窗口通过位置插值在长上下文任务上具有可比性能的4K上下文窗口的大型语言模型，而计算量较小。此外，我们证明检索可以显著提高大型语言模型的性能，而不受其扩展上下文窗口大小的限制。我们的最佳模型，检索增强的32K上下文窗口的LLaMA2-70B，在7个长上下文任务中，包括问答和基于查询的摘要，的平均得分方面优于GPT-3.5-turbo-16k和Davinci003。它还在生成速度上优于其非检索的LLaMA2-70B-32k基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。

Oct, 2023

LooGLE: 长文本语言模型是否理解长文本上下文?

基于LooGLE评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

中间不再迷失：通过增强注意力来提升大型语言模型在问答任务中的表现

通过Attention Strengthening Multi-doc QA任务，本文提出了一种增强长文本上大语言模型（LLMs）信息搜索以及反思能力的方法，实验证明在Multi-doc QA和其他基准测试中相比最先进模型，我们的模型在乱序设置下取得了13.7％绝对增益，以及在段落检索任务中取得了21.5％的改进。我们将我们的模型Ziya-Reader发布出来，以促进相关研究在社区中的开展。

Nov, 2023

CRaQAn（问答中的指代消解）的发布：一个开源的数据集和数据集创建方法，使用指令遵循模型

通过使用指令跟踪模型（GPT-4）和递归批评和改进循环，我们开发了一个高质量数据集，该数据集包含超过250个包含共指的问题-回答对，以满足共指解析在问答任务中的信息检索需求。

Nov, 2023

大语言模型中上下文长度扩展技术的什么、为什么和如何 - 详细调查

大语言模型的出现在自然语言处理领域具有重大突破，但是它们在上下文长度的推断方面常常存在限制。了解和扩展大语言模型的上下文长度对于提升其在各种自然语言处理应用中的性能至关重要。本综述论文将深入探讨为什么扩展上下文长度以及先进技术可能带来的潜在变革。我们研究了扩展上下文长度所固有的挑战，并对研究人员采用的现有策略进行了有组织的概述。此外，我们讨论了评估上下文扩展技术的复杂性，并突出研究人员在该领域面临的开放性挑战。此外，我们探讨了研究界对于评估标准是否存在共识，并确定了需要进一步达成共识的领域。这份全面的综述旨在为研究人员提供有价值的资源，引导他们了解上下文长度扩展技术的技巧，并促进对这一不断发展领域的未来进展的讨论。

Jan, 2024

NovelQA: 一个长距离小说问答基准

使用英文小说构建的NovelQA评估长上下文具有深层文本理解能力的LLMs的表现，结果强调了LLMs在多次推理、注重细节的问题和超过100,000个标记的极长输入方面面临的挑战，强调了进一步改进LLMs以提高其长上下文理解和计算文学研究的必要性。

Mar, 2024

不留下任何文件: 扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理？

评估大型语言模型在长文本情境下的能力，提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench，并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明，当前的大型语言模型在实际长文本应用中仍有很大的改进空间。

Jul, 2024