DataFrame QA：DataFrame 问答的通用 LLM 框架，无需数据暴露

Jan, 2024

DataFrame QA：DataFrame 问答的通用 LLM 框架，无需数据暴露

DataFrame QA: A Universal LLM Framework on DataFrame Question Answering Without Data Exposure

Junyi Ye, Mengnan Du, Guiling Wang

TL;DR本文介绍了 DataFrame 问答（QA）这一新颖任务，利用大型语言模型（LLMs）为数据框生成安全、保密的 Pandas 查询，以进行信息检索和数据分析。我们的方法仅依赖于数据框的列名，既确保数据隐私，也显著减少了提示的上下文窗口，简化了信息处理，并解决了 LLM 数据分析中的主要挑战。我们提出了 DataFrame QA 作为一个全面的框架，包括安全的 Pandas 查询生成和代码执行。我们评估了各种 LLM，特别是 GPT-4，在著名的 WikiSQL 和我们新开发的 “UCI-DataFrameQA” 上，使用 pass@1 度量来进行复杂数据分析查询。我们的研究结果表明，GPT-4 在 WikiSQL 上的 pass@1 成功率为 86％，在 UCI-DataFrameQA 上为 97％，突出了其在安全地检索和汇总数据框值以及开展复杂数据分析方面的能力。该方法可以在无需事先训练或调整的情况下进行零 - shot 部署，证明了其在各种应用中具有高适应性和安全性。

Abstract

This paper introduces dataframe question answering (QA), a novel task that utilizes large language models (LLMs) to generate pandas queries

dataframe question answering pandas queries large language models data privacy data analysis

发现论文，激发创造

针对多样的表结构的问题回答辅助代码生成

通过生成可执行程序的方式来回答表格问题（TableQA）一直面临的挑战是适应各种表格结构，通常需要特定领域的逻辑形式。为此，本文引入了一个统一的 TableQA 框架，该框架：（1）以多索引 Pandas 数据帧的形式提供结构化表格的统一表示；（2）使用 Python 作为强大的查询语言；（3）使用少样本提示将自然语言问题转化为可在 Pandas 数据帧上执行的 Python 程序。此外，为了回答复杂的关系性问题并具备扩展程序功能和外部知识，我们的框架允许自定义的 API，供 Python 程序调用。我们在涉及不同结构的四个 TableQA 数据集上进行了实验 —— 关系型、多表格和分层矩阵形式 —— 并在过去最先进系统的基础上取得了显著的改进。在消融研究中，我们表明相比只使用 LLM 的基线方法，我们的多索引表示和 API 可以带来好处；同时，我们还证明了我们的方法是模块化的，可以整合其他的 API。

Oct, 2023

FormulaQA：一个基于公式的数值推理问答数据集

通过使用存在的公式驱动的 FormulaQA 数据集，得出了使用检索增强的 LLMs 模型结合外部公式数据库时对现有模型具有重要改进潜力的实证结果。

Feb, 2024

面向开放域问答的自我提示大语言模型

本文提出了一种基于大型语言模型的自我点拨框架 (Self-Prompting framework)，使得在开放域下的问答任务 (Open-Domain Question Answering) 可以在不需要训练数据和外部知识库的情况下实现，采用该方法在三个广泛使用的 ODQA 数据集上，实验结果优于之前的最先进方法，在 EM 指标上平均提高了 8.8 个百分点，并且能够实现与多种检索增强的微调模型相比较的性能。

Dec, 2022

关于表格问答的语言模型鲁棒性研究

通过评估 Large Language Models (LLMs) 在基于维基百科和财务报告的 Tabular Question Answering (TQA) 数据集上的表格理解能力，研究发现指令对性能有显著影响，新模型 Llama3 比之前的版本更具鲁棒性，但 WTQ 数据集存在数据污染和实际可靠性问题，需要通过结构感知自注意机制和更好处理特定领域的表格数据来改进 LLMs 的可靠性。

Jun, 2024

强化大型语言模型在工业领域特定问题回答上的表现

本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA，旨在评估旨在提高 LLM 领域特定能力的方法。此外，我们提出了一种新的模型交互范式，可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明，遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。

May, 2023

SciQAG: 自动生成科学问答数据集的框架及细粒度评估

通过从科学文献中提取的信息，利用科学问答对生成的自动评估框架 SciQAG 表明，大型语言模型可用于从文献中提取关键知识的高质量科学问答对。

May, 2024

利用大型语言模型在 NFDI4DataScience Gateway 中进行学术问题回答

本研究介绍了一个基于 NFDI4DataScience Gateway 的学术问答系统，采用了检索增强生成模型（RAG）的方法。该系统利用强大的大语言模型提供动态交互和会话式搜索，通过实验分析证明了 Gateway 和学术问答系统的有效性。

Jun, 2024

NeuralQA：适用于大型数据集的问答（上下文查询扩展 + BERT）可用库

NeuralQA 是一个用于大规模数据集上的 QA 的易于使用的库，它集成了上下文查询扩展 (CQE) 和相关片段 (RelSnip) 来支持 QA 子任务，并提供了灵活的用户界面以支持研究探索和大规模搜索部署。

Jul, 2020

利用大型语言模型的多角色能力进行面向开放领域的问答

开放领域问答（ODQA）作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据：（1）“先检索然后阅读” 范式从外部语料库中检索相关文档；（2）“先生成然后阅读” 范式使用大型语言模型（LLMs）生成相关文档。然而，两者都无法完全满足证据的多方面需求。因此，本文提出了 LLMQA，一种通用框架，将 ODQA 过程分为三个基本步骤：查询扩展、文档选择和答案生成，结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力，我们在框架中指导 LLMs 担任多个角色，作为生成器、重新排序器和评估器，集成它们在 ODQA 过程中的协作。此外，我们引入了一种新颖的提示优化算法，以改进角色扮演提示，引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试（NQ、WebQ 和 TriviaQA）上进行的大量实验结果表明，LLMQA 在答案准确性和证据质量方面达到了最佳表现，展示了其推进 ODQA 研究和应用的潜力。

Mar, 2024

FinTextQA：长文本金融问答数据集

该研究介绍了 FinTextQA，这是一个用于金融领域长篇问答的创新数据集，并开发了一个基于 RAG 的 LFQA 系统，通过多角度评估方法得出了在噪声环境下不同配置的 LFQA 系统的性能表现和模型对噪声的容忍度。

May, 2024