Jan, 2024

DataFrame QA:DataFrame 问答的通用 LLM 框架,无需数据暴露

TL;DR本文介绍了 DataFrame 问答(QA)这一新颖任务,利用大型语言模型(LLMs)为数据框生成安全、保密的 Pandas 查询,以进行信息检索和数据分析。我们的方法仅依赖于数据框的列名,既确保数据隐私,也显著减少了提示的上下文窗口,简化了信息处理,并解决了 LLM 数据分析中的主要挑战。我们提出了 DataFrame QA 作为一个全面的框架,包括安全的 Pandas 查询生成和代码执行。我们评估了各种 LLM,特别是 GPT-4,在著名的 WikiSQL 和我们新开发的 “UCI-DataFrameQA” 上,使用 pass@1 度量来进行复杂数据分析查询。我们的研究结果表明,GPT-4 在 WikiSQL 上的 pass@1 成功率为 86%,在 UCI-DataFrameQA 上为 97%,突出了其在安全地检索和汇总数据框值以及开展复杂数据分析方面的能力。该方法可以在无需事先训练或调整的情况下进行零 - shot 部署,证明了其在各种应用中具有高适应性和安全性。