通过多视角内容感知索引(MC 索引)来提高长文档问答(DocQA)的性能,无需训练或微调。与现有的固定长度切块方式相比,MC 索引显著提高了召回率,并能与任何检索器无缝集成。
Apr, 2024
通过利用文档中普遍存在的话语结构,我们提出了一套技术方法,创造出文档的简洁表示形式,从而更全面地理解和分析不同部分之间的关系。我们保留了最佳零射击方法性能的 99.6%,同时仅处理了最佳方法在信息查询证据检索设置中使用的总令牌数量的 26%。我们还展示了如何将我们的方法与 “自问” 推理代理结合起来,以实现复杂的多跳问题回答中的最佳零射击性能,仅比使用研究证据时的零射击性能少约 4%。
Nov, 2023
本文研究了长篇文本上的机器阅读理解(MRC),提出了一种利用强化学习和循环机制实现更加灵活的分块方式,以提高 MRC 模型的效果。实验表明,该模型可以更好地捕捉完整答案及其上下文信息,且能够跨越多个文本段落提供答案。
May, 2020
通过改进文本检索过程,本文探讨了 RAG 管道的现有限制并引入了提升文本检索的方法,包括先进的文本切块技术、查询扩展、元数据注释的应用、重新排序算法以及嵌入算法的微调。通过实施这些方法可以大幅提高检索质量,从而提升 LLM 在处理和响应查询时的整体效果和可靠性。
Mar, 2024
文章讨论了在自然语言处理中,基于 Transformer 的架构会有输入大小的限制问题,但该论文通过将长文档分块并保持全局上下文,以查询定义话题,从而克服了这个问题,开发的系统使用预训练的 BERT 模型并调整它来估计给定文本跨度形成关键短语的概率,实验结果表明,在长文档上,使用查询的较短上下文大小胜过没有查询的较长上下文。
May, 2022
我们在这篇论文中关注减小问题回答系统所需的提示上下文的大小和提高其质量的方法。我们通过使用嵌入向量的距离,提出并评估了几种识别离群点的方法,该嵌入向量是从向量数据库中检索得到的,以及与质心和查询向量的距离有关的特征。通过比较检索到的大型语言模型回答与使用 OpenAI GPT-4o 模型获得的基本答案的相似性进行评估,发现随着问题和答案的复杂性增加,取得了最大的改进。
Jul, 2024
用 XL3M 框架,将上下文分解成多个独立片段并通过衡量其与 “问题” 的相关性来构建一个简明的关键上下文,从而解决了大语言模型在处理超长文本时的泛化失败问题,并在推理任务中展现了卓越的性能。
May, 2024
通过使用基于文档结构的元素类型作为切块依据,我们提出了一种扩展的文档切块方法,以获得最佳切块大小,进而改善 Retrieval Augmented Generation (RAG) 的性能。该研究还深入分析了不同元素类型在信息检索中的作用,并讨论了它们对 RAG 结果质量的影响。
Feb, 2024
本文提出了一种新的长文档重新排序方法,通过利用自注意力机制和模块化 Transformer 框架建立查询到文档的交互模型,避免了编码过程中低维度表示带来的信息瓶颈,实现了从全部文档中提取重要信息的目的,并在 Robust04 和 ClueWeb09 等数据集上实现了有效的重新排序。
提供了针对结构化文档的文档问答技术 PDFTriage,通过基于结构或内容的检索,解决了大型语言模型在处理结构化文档时的困境,并发布了包含 900 多个人工生成问题的基准数据集。
Sep, 2023