通过SQL质量测量增强LLM微调以进行文本到SQL转换

Oct, 2024

通过SQL质量测量增强LLM微调以进行文本到SQL转换

Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement

Shouvon Sarker, Xishuang Dong, Xiangfang Li, Lijun Qian

TL;DR该研究解决了当前文本到SQL模型在性能上依赖Auxiliary工具的问题，提出了仅依赖SQL质量测量的方法，建立了一个评估生成SQL查询的机制。实验结果显示，该方法在执行准确度和有效效率评分上与最先进的模型（如GPT4和T5）具有竞争力，彰显了模型输出持续学习和优化的潜力。

Abstract

Text-to-SQLs enables non-expert users to effortlessly retrieve desired information from relational databases using natural language queries. While recent advancements, particularly with Large Language Models (LLMs) like GPT and T5, have shown impressive performance on large-scale bench

发现论文，激发创造

LLM是否可以作为数据库接口？一种基于大规模数据库的文本到SQL的BIg Bench

本文提出了一个名为Bird的大规模基准数据集，旨在填补现有基准测试数据集在数据库值、外部知识和SQL某些方面的不足。实验结果表明，在大型数据库的文本到SQL转换中，数据库值具有重要意义。同时，最先进的文本到SQL模型ChatGPT，转换准确度仅为40.08%，距离人类结果92.96%还有巨大的差距。

May, 2023

SQL-PaLM: 文本到SQL的改良大型语言模型自适应

本研究提出了一种基于大型语言模型的 Text-to-SQL 模型 SQL-PaLM，该模型在几种不同的任务测试中都取得了最优结果，并展示了其应用于现实场景的鲁棒性和智能能力。

May, 2023

基于大型语言模型的文本转SQL：基准评估

本文对大型语言模型（LLMs）在Text-to-SQL任务中的应用进行了研究，提出了一种新的集成解决方案DAIL-SQL，并通过实验证明了其在Spider排行榜上取得了86.6%的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源LLMs在Text-to-SQL中的潜力，以及任务特定的监督微调的优势和劣势，希望能够对LLMs在Text-to-SQL领域提供更深入的了解，并激发进一步的研究和广泛应用。

Aug, 2023

针对特定上下文的SQL查询生成的语言模型微调

通过对特定领域 (零售) 生成 SQL 查询的研究，使用开源大型语言模型 (LLMs) 进行微调，将自然语言转化为 SQL 查询，提高数据库的可访问性。

Dec, 2023

大型语言模型在文本转SQL合成中的有效性分析

该研究通过使用大型语言模型（LLMs）来进行文本到SQL程序合成的各种方法以及相关的结果和见解，通过使用流行的Text-to-SQL数据集（spider）输入自然语言问题和数据库模式并生成正确的SQL SELECT查询。通过细调WizardLM的WizardCoder-15B模型和fine-tuning gpt-3.5-turbo-16k（Few-shot）+ gpt-4-turbo（Zero-shot error correction）的方式，查询的执行准确率达到了较高的82.1%。大部分错误查询可以归为七个不同的类别，这揭示了LLM程序合成的瑕疵以及可改进的方向。

Jan, 2024

大型语言模型的文本到SQL能力基准测试：全面评估

通过构建新数据集和提出五个评估任务，全面评估不同方法在文本到SQL过程中的性能，揭示了大型语言模型之间的性能差异，并提出了针对每个任务的最佳上下文学习解决方案，为改进基于大型语言模型的文本到SQL系统的开发提供了有价值的见解。

Mar, 2024

下一代数据库接口：LLM基于文本到SQL的调查

根据自然语言问题（文本到SQL）生成准确的SQL是一个长期存在的问题，传统的文本到SQL系统使用人工工程和深度神经网络，而最近的大型语言模型（LLMs）已经展示出在自然语言理解方面的显著能力，因此，将LLM-based实现整合到文本到SQL研究中可以带来独特的机遇、挑战和解决方案。

Jun, 2024

ESM+: 大语言模型时代的文本到SQL评估的现代观点

通过比较9个基于大型语言模型的文本到SQL模型在测试套件执行准确率(EXE)、精确匹配准确率(ESM)和改进后的ESM+(ESM+)方面的表现，我们发现EXE和ESM评估指标在准确性方面存在明显的不足，而ESM+可以提供更稳定的评估结果，因此我们提供了ESM+脚本作为开源工具，以便社区做出贡献并获得更可靠的文本到SQL评估。

Jul, 2024

使用大型语言模型改善关系数据库交互：列描述及其对文本到SQL性能的影响

本研究解决了关系数据库中列描述不清晰的问题，影响用户和文本到SQL模型的交互。通过使用大型语言模型生成详细的列描述，研究发现高质量的描述显著提升了文本到SQL的执行准确性，尤其在列信息不充分的情况下。这项工作展示了大型语言模型作为生成详细元数据的有效工具的潜力，增强了关系数据库的可用性。

Aug, 2024

从自然语言到SQL：基于大型语言模型的文本转SQL系统评述

本研究解决了将自然语言查询转化为结构化SQL命令的持续问题，提供了基于大型语言模型的文本转SQL系统的全面演变分析。论文独特地探讨了知识图谱在提高语境准确性和模式链接中的作用，关键发现为当前技术的局限性及未来改进方向。

Oct, 2024