RAG与长上下文：探究用于环境审查文档理解的前沿大语言模型

Jul, 2024

RAG与长上下文：探究用于环境审查文档理解的前沿大语言模型

RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

Hung Phan, Anurag Acharya, Sarthak Chaturvedi, Shivam Sharma, Mike Parker...

TL;DR通过NEPAQuAD1.0基准测试评估了大型语言模型的性能，结果显示RAG动力模型在回答问题准确性方面表现明显优于长上下文模型，而不管所选使用的前沿LLM是哪个。进一步分析发现，很多模型在回答封闭式问题方面要比开放式和问题解决型的问题表现更好。

Abstract

large language models (LLMs) have been applied to many research problems across various domains. One of the applications of LLMs is providing question-answering systems that cater to users from different fields.

发现论文，激发创造

探索 LLMs 对长文问题回答的可行性

从长文摘要生成问题的方法对于LLMs的性能造成挑战，表明LLMs（如ChatGPT）与开源LLMs（Alpaca、Llama）之间存在性能差距。

Sep, 2023

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估LLM的推理能力

大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于Wikidata的SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Oct, 2023

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在LLMs回答问题之前从外部知识库中检索相关信息。该论文概述了LLMs时代RAG的发展范式，总结了三种范式：Naive RAG，Advanced RAG和Modular RAG。同时，它提供了RAG的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估RAG模型的有效性，并介绍了两种RAG的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和RAG的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

引航知识海洋：利用LLM进行星球级答案检索

信息检索技术是一个不断发展的领域，这篇论文综述了信息检索技术的演变，重点讨论大型语言模型在传统搜索方法与新兴答案检索范式之间的桥梁作用。借助GPT-4等大型语言模型的整合，响应检索和索引领域正在发生范式转变，从而使用户能够更直接地与信息系统进行互动并获得语境相关的回答。通过这一探索，我们希望揭示塑造这一发展历程的技术里程碑及未来可能的方向。

Feb, 2024

T-RAG: LLM战壕中的教训

构建一个基于RAG的LLM应用程序，Tree-RAG使用树结构表示组织中的实体层级，并生成文字描述以增强响应用户查询的上下文。

Feb, 2024

RepLiQA：用于评估LLMs在未见参考内容上的问答数据集

通过介绍一个名为RepLiQA的新测试数据集，本研究试图解决使用互联网数据进行大型语言模型评估时可能出现的问题，并通过对各种型号和规模的模型进行基准测试，揭示它们在不同情境条件下的性能差异。

Jun, 2024

不留下任何文件: 扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理？

评估大型语言模型在长文本情境下的能力，提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench，并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明，当前的大型语言模型在实际长文本应用中仍有很大的改进空间。

Jul, 2024

电信领域问答的RAG度量评估

使用任何大型语言模型 (LLM)，本研究以修改的 RAGAS 包提供开放领域 LLM 的评估指标，分析专家评估及其在电信领域中的困难，并研究检索的正确性对度量标准的影响以及域自适应的差异，最后讨论这些度量标准在电信问答任务中的适用性和挑战。

Jul, 2024

大型语言模型生成上下文相关问题的比较

本研究探讨了大型语言模型（LLMs）在教育环境中自动生成问题的有效性，并比较了三种模型在无微调情况下从大学幻灯片文本中生成问题的能力。研究发现，GPT-3.5和Llama 2-Chat 13B在问题的清晰度和问答对应性方面略优于Flan T5 XXL，特别是GPT-3.5在根据输入答案定制问题方面表现突出。

Jul, 2024