LumberChunker: 长篇叙述文档切割

Jun, 2024

LumberChunker: Long-Form Narrative Document Segmentation

André V. Duarte, João Marques, Miguel Graça, Miguel Freire, Lei Li...

TL;DR利用 LumberChunker 方法切割文档，以动态地对文档进行分割，通过将其整合到 RAG 管道中，证明了在检索性能和效果上优于其他切割方法和竞争基准的竞争基准。

Abstract

Modern nlp tasks increasingly rely on dense retrieval methods to access up-to-date and relevant contextual information. We are motivated by the premise that retrieval benefits from segments that can vary in size

nlp tasks dense retrieval methods lumberchunker gutenqa rag pipeline

发现论文，激发创造

多视图内容感知长文档检索

通过多视角内容感知索引（MC 索引）来提高长文档问答（DocQA）的性能，无需训练或微调。与现有的固定长度切块方式相比，MC 索引显著提高了召回率，并能与任何检索器无缝集成。

Apr, 2024

利用 LLMs 深入挖掘长文档问答中的话语结构

通过利用文档中普遍存在的话语结构，我们提出了一套技术方法，创造出文档的简洁表示形式，从而更全面地理解和分析不同部分之间的关系。我们保留了最佳零射击方法性能的 99.6％，同时仅处理了最佳方法在信息查询证据检索设置中使用的总令牌数量的 26％。我们还展示了如何将我们的方法与 “自问” 推理代理结合起来，以实现复杂的多跳问题回答中的最佳零射击性能，仅比使用研究证据时的零射击性能少约 4％。

Nov, 2023

长文本机器阅读理解的循环分块机制

本文研究了长篇文本上的机器阅读理解（MRC），提出了一种利用强化学习和循环机制实现更加灵活的分块方式，以提高 MRC 模型的效果。实验表明，该模型可以更好地捕捉完整答案及其上下文信息，且能够跨越多个文本段落提供答案。

May, 2020

基于 RAG 的金融文件问答模型检索性能改进

通过改进文本检索过程，本文探讨了 RAG 管道的现有限制并引入了提升文本检索的方法，包括先进的文本切块技术、查询扩展、元数据注释的应用、重新排序算法以及嵌入算法的微调。通过实施这些方法可以大幅提高检索质量，从而提升 LLM 在处理和响应查询时的整体效果和可靠性。

Mar, 2024

基于查询的长文档关键词提取

文章讨论了在自然语言处理中，基于 Transformer 的架构会有输入大小的限制问题，但该论文通过将长文档分块并保持全局上下文，以查询定义话题，从而克服了这个问题，开发的系统使用预训练的 BERT 模型并调整它来估计给定文本跨度形成关键短语的概率，实验结果表明，在长文档上，使用查询的较短上下文大小胜过没有查询的较长上下文。

May, 2022

优化检索增强生成环境中的异常检测

我们在这篇论文中关注减小问题回答系统所需的提示上下文的大小和提高其质量的方法。我们通过使用嵌入向量的距离，提出并评估了几种识别离群点的方法，该嵌入向量是从向量数据库中检索得到的，以及与质心和查询向量的距离有关的特征。通过比较检索到的大型语言模型回答与使用 OpenAI GPT-4o 模型获得的基本答案的相似性进行评估，发现随着问题和答案的复杂性增加，取得了最大的改进。

Jul, 2024

XL3M：一种基于分段推理的无需训练的 LLM 长度扩展框架

用 XL3M 框架，将上下文分解成多个独立片段并通过衡量其与 “问题” 的相关性来构建一个简明的关键上下文，从而解决了大语言模型在处理超长文本时的泛化失败问题，并在推理任务中展现了卓越的性能。

May, 2024

有效提升检索和生成的财务报告分块

通过使用基于文档结构的元素类型作为切块依据，我们提出了一种扩展的文档切块方法，以获得最佳切块大小，进而改善 Retrieval Augmented Generation (RAG) 的性能。该研究还深入分析了不同元素类型在信息检索中的作用，并讨论了它们对 RAG 结果质量的影响。

Feb, 2024

使用模块化 Re-ranker 进行长文档重新排名

本文提出了一种新的长文档重新排序方法，通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型，避免了编码过程中低维度表示带来的信息瓶颈，实现了从全部文档中提取重要信息的目的，并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。

May, 2022

PDFTriage：长文结构化文档上的问答

提供了针对结构化文档的文档问答技术 PDFTriage，通过基于结构或内容的检索，解决了大型语言模型在处理结构化文档时的困境，并发布了包含 900 多个人工生成问题的基准数据集。

Sep, 2023