评估具有数据库问答功能的 LLM 智能体中推理和行动的整合

Nov, 2023

评估具有数据库问答功能的 LLM 智能体中推理和行动的整合

On Evaluating the Integration of Reasoning and Action in LLM Agents with Database Question Answering

Linyong Nan, Ellen Zhang, Weijin Zou, Yilun Zhao, Wenfei Zhou...

TL;DR本研究介绍了一个新的长格式数据库问答数据集，旨在评估大型语言模型（LLMs）与 SQL 解释器的互动。研究发现即使对于最先进的 GPT-4 模型，这个任务也存在巨大挑战。我们提出并评估了两种互动策略，并对互动过程中的各个阶段进行了细致分析。一个重要发现是确定了两个主要瓶颈，即规划能力和生成多个 SQL 查询能力。为了解决准确评估答案质量的挑战，我们引入了一个多代理评估框架，模拟学术同行评审过程，增强了我们评估的精确性和可靠性。该框架使我们能够更加细致地了解当前 LLMs 在复杂检索和推理任务中的优点和局限性。

Abstract

This study introduces a new long-form database question answering dataset designed to evaluate how large language models (LLMs) interact with a SQL interpreter. The task necessitates LLMs to strategically generat

long-form database question answering large language models sql interpreter interaction strategies multi-agent evaluation framework

发现论文，激发创造

使用 SQL 查询大型语言模型

使用大语言模型和 SQL 查询从自然语言文本中提取数据和查询，是信息检索和处理的新方向并带来了新的挑战和机遇。

Apr, 2023

DIVKNOWQA: 通过知识库和文本进行开放领域问答评估 LLM 的推理能力

大型语言模型在生成能力方面表现出色，但当仅依赖其内部知识时，容易出现幻觉，尤其是在回答需要不太常见的信息的问题时。基于检索的大型语言模型已经成为将其与外部知识结合的潜在解决方案，然而，最近的方法主要强调从非结构化文本语料库进行检索，忽视了底层结构。此外，当前领域存在一个显著的差距，即缺乏对异构知识源（如知识库和文本）上的大型语言模型进行有效定位的实际基准数据集。为了填补这一空白，我们精心策划了一个综合数据集，提出了两个独特挑战：（1）需要从开放域结构化和非结构化的知识源中检索信息的两跳多源问题，正确回答问题需要从结构化知识源中检索信息；（2）符号化查询（例如用于 Wikidata 的 SPARQL）的生成是一个关键要求，增加了额外的挑战。我们的数据集通过预定义的推理链自动生成和人工注释相结合的方式创建，我们还引入了一种新颖的方法，利用多个检索工具，包括文本段落检索和符号化语言辅助检索。我们的模型在解决上述推理挑战方面优于以往的方法。

Oct, 2023

下一代数据库接口：LLM 基于文本到 SQL 的调查

根据自然语言问题（文本到 SQL）生成准确的 SQL 是一个长期存在的问题，传统的文本到 SQL 系统使用人工工程和深度神经网络，而最近的大型语言模型（LLMs）已经展示出在自然语言理解方面的显著能力，因此，将 LLM-based 实现整合到文本到 SQL 研究中可以带来独特的机遇、挑战和解决方案。

Jun, 2024

支持不完整用户查询的 LLM + 推理 + 规划在 API 存在的情况下

最近大型语言模型（LLMs）的可用性推动了许多基于 LLM 的方法的发展，旨在提供各种最终用户任务的自然语言接口。我们提出的方法的关键思想是利用逻辑推理和经典人工智能规划，结合 LLM 准确回答用户查询，包括识别和收集这些查询中的任何缺失信息。

May, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

大型语言模型时代的查询理解

本文提出了一种使用大语言模型的通用交互式查询重写框架，旨在提高透明性和意图理解能力，并改变传统的意图理解方法；在初步实验的支撑下，通过自然语言表达、交互和推理机器意图，取得了显著的排序性能提升。

Jun, 2023

实体演绎竞技场：探索 LLM 的对话推理和规划能力的游乐场

大语言模型在回答清楚的问题方面非常有效，但面对模糊查询时会表现不可预测且产生错误的输出，因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架，通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力，并对不同的语言模型进行系统评估。结果发现，像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆（BC）来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后，我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力，从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。

Oct, 2023

基于大型语言模型的文本转 SQL：基准评估

本文对大型语言模型（LLMs）在 Text-to-SQL 任务中的应用进行了研究，提出了一种新的集成解决方案 DAIL-SQL，并通过实验证明了其在 Spider 排行榜上取得了 86.6% 的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源 LLMs 在 Text-to-SQL 中的潜力，以及任务特定的监督微调的优势和劣势，希望能够对 LLMs 在 Text-to-SQL 领域提供更深入的了解，并激发进一步的研究和广泛应用。

Aug, 2023

大型语言模型在文本转 SQL 合成中的有效性分析

该研究通过使用大型语言模型（LLMs）来进行文本到 SQL 程序合成的各种方法以及相关的结果和见解，通过使用流行的 Text-to-SQL 数据集（spider）输入自然语言问题和数据库模式并生成正确的 SQL SELECT 查询。通过细调 WizardLM 的 WizardCoder-15B 模型和 fine-tuning gpt-3.5-turbo-16k（Few-shot）+ gpt-4-turbo（Zero-shot error correction）的方式，查询的执行准确率达到了较高的 82.1%。大部分错误查询可以归为七个不同的类别，这揭示了 LLM 程序合成的瑕疵以及可改进的方向。

Jan, 2024