STaRK: 在文本和关系知识库上评估 LLM 检索的基准

Apr, 2024

STaRK: 在文本和关系知识库上评估 LLM 检索的基准

STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases

Shirley Wu, Shiyu Zhao, Michihiro Yasunaga, Kexin Huang, Kaidi Cao...

TL;DR回答真实世界中的用户查询，如产品搜索，通常需要从半结构化知识库或涉及混合结构化和非结构化信息的数据库中准确检索信息。我们开发了 STARK，一个基于文本和关系知识库的大规模半结构化检索基准，以填补此间隙，并验证了此基准的质量和实际应用的多样性。我们的实验表明，STARK 数据集对当前的检索系统和大型语言模型系统提出了显着挑战，表明需要构建更具能力的检索系统来处理文本和关系方面的要求。

Abstract

Answering real-world user queries, such as product search, often requires accurate retrieval of information from semi-structured knowledge bases or databases that involve blend of unstructured (e.g.,

user queries semi-structured knowledge bases textual descriptions entity relations retrieval systems

发现论文，激发创造

基于 AST 排序和架构修剪的改进检索增强型文本到 SQL 模型

通过动态检索输入数据库信息和使用抽象语法树选择少量示例以进行上下文学习，本文提出一种从大型语言模型的角度着眼于文本到 SQL 语义解析的方法，并研究并行语义解析器在生成预期 SQL 查询的近似版本方面的利用程度。作者利用不到 500M 参数的极其高效的逼近模型进行了实验，应用于语义解析的单语和跨语言基准测试中，取得了比现有基准的改进效果，并对未来工作方向提出了有趣的见解。

Jul, 2024

知识 GPT: 通过检索和存取知识库增强大型语言模型

通过将大型语言模型与知识库相结合，KnowledGPT 能够更好地回答涉及世界知识的更广泛问题，利用广为人知的知识库和个性化知识库中的知识。

Aug, 2023

关键词增强检索：与语音界面集成的信息检索新框架

通过使用关键词来提升大型语言模型在知识检索自动化中的应用，并降低推理时间和成本。

Oct, 2023

StructLM: 构建用于结构化知识建模的通用模型

结构化数据是普遍的知识源，大型语言模型在处理结构化数据方面存在显著不足，为了增加语言模型中的结构化知识落地能力，研究人员开发了一种全面的指导调整数据集，并利用此数据集训练了一系列基于 Code-LLaMA 架构的模型，横跨 7B 到 34B 参数范围。这些模型在 18 个评估数据集中有 14 个超越了任务专用模型，并在 7 个结构化知识落地任务中取得了新的最佳成果。此外，这些模型在 6 个新的结构化知识落地任务上表现出出色的泛化能力。然而，我们观察到模型规模的扩大只能带来些微的改进，这表明结构化知识落地仍然是一个具有挑战性的任务，需要更多创新的设计突破新的领域。

Feb, 2024

HOLMES: 基于超关系的知识图谱用于多跳问答的 LLMs

利用压缩的知识图作为输入，我们的方法在使用较少标记表示支持文档中与查询相关信息方面比现有方法利用高达 67% 的标记。我们的实验证明，在两个流行的基准数据集（HotpotQA 和 MuSiQue）上，我们的方法在多个指标（EM，F1，BERTScore 和人类评估）上持续改进。

Jun, 2024

RAR-b: 推理作为检索的基准

通过将推理任务转换为检索任务，我们发现，即使没有针对推理级别的语言理解进行专门训练，目前最先进的检索模型在协助 LLMs 的角色上可能仍然远离胜任，特别是在推理密集型任务中。然而，最近基于解码器的嵌入模型在弥合这一差距方面表现出巨大潜力，突显了嵌入模型实现推理级别语言理解的路径。通过微调重新排序模型将推理能力注入其中似乎比对双编码器进行类似操作更容易，我们能够在所有任务中通过微调重新排序模型实现最先进的性能。我们发布由整体任务和设置组成的推理作为检索基准（RAR-b），用于评估检索模型中存储的推理能力。

Apr, 2024

利用大型语言模型增强企业知识库的问答能力

通过使用大规模语言模型（LLMs），我们提出了一种名为 EKRG 的新型检索 - 生成框架，以极低的注释成本实现了企业知识库的问答。通过独特的指令调优方法和针对连贯性思维的微调方法，我们的框架在真实世界数据集上进行了广泛实验，并取得了显著的有效性。

Apr, 2024

检索 - 改写 - 回答：一种对知识图谱问题回答增强语言模型的框架

尽管大型语言模型在知识密集型任务上表现出竞争力，但它们仍存在于记忆所有世界知识，尤其是长尾知识方面的局限性。本文研究了用于解决知识图谱问答任务的知识图增强语言模型方法。基于回答敏感的 KG-to-Text 方法，我们提出了一种将 KG 知识转化为对 KGQA 最有信息量的文本化陈述的方法，并基于此方法提出了一种 KG-to-Text 增强的 LLMs 框架来解决 KGQA 任务。在几个 KGQA 基准测试上的实验证明了所提出的 KG-to-Text 增强 LLMs 方法在回答准确性和知识陈述的有用性方面优于先前的 KG 增强 LLMs 方法。

Sep, 2023

通过大型语言模型重定义结构化数据库的信息检索

本文介绍了一种名为 ChatLR 的新型检索增强框架，主要利用大型语言模型（LLMs）的强大语义理解能力作为检索器，以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统，实验证明 ChatLR 在解决用户查询中表现出高达 98.8％的信息检索准确性。

May, 2024

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023