大型语言模型的文本到 SQL 能力基准测试:全面评估
本文对大型语言模型(LLMs)在 Text-to-SQL 任务中的应用进行了研究,提出了一种新的集成解决方案 DAIL-SQL,并通过实验证明了其在 Spider 排行榜上取得了 86.6% 的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源 LLMs 在 Text-to-SQL 中的潜力,以及任务特定的监督微调的优势和劣势,希望能够对 LLMs 在 Text-to-SQL 领域提供更深入的了解,并激发进一步的研究和广泛应用。
Aug, 2023
根据自然语言问题(文本到 SQL)生成准确的 SQL 是一个长期存在的问题,传统的文本到 SQL 系统使用人工工程和深度神经网络,而最近的大型语言模型(LLMs)已经展示出在自然语言理解方面的显著能力,因此,将 LLM-based 实现整合到文本到 SQL 研究中可以带来独特的机遇、挑战和解决方案。
Jun, 2024
本文介绍了一种基于大型语言模型的 In-context learning 方法用于文本到 SQL 查询转换中,通过不同的演示选择策略和指令格式来提高 LLMs 性能。实验结果表明,该方法在 Spider 数据集上超出了最先进系统 2.5 个点,超出了最佳微调系统 5.1 个点。
May, 2023
本研究研究了大型语言模型在生成结构化表格数据文本时的性能,证明了大型语言模型在文本生成领域中的潜力和应用,并探讨了大型语言模型在文本生成质量自动评估及模型优化中的应用。
May, 2023
研究大型语言模型在上下文学习中在文本到 SQL 任务中的表现,尤其是对于提示文本构建的影响和最有效的构建策略进行的全面调查。
May, 2023
该研究通过使用大型语言模型(LLMs)来进行文本到 SQL 程序合成的各种方法以及相关的结果和见解,通过使用流行的 Text-to-SQL 数据集(spider)输入自然语言问题和数据库模式并生成正确的 SQL SELECT 查询。通过细调 WizardLM 的 WizardCoder-15B 模型和 fine-tuning gpt-3.5-turbo-16k(Few-shot)+ gpt-4-turbo(Zero-shot error correction)的方式,查询的执行准确率达到了较高的 82.1%。大部分错误查询可以归为七个不同的类别,这揭示了 LLM 程序合成的瑕疵以及可改进的方向。
Jan, 2024
通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如 LLM 开发人员与对特定下游任务感兴趣的开发人员)设计定制化的评估指标,从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时,我们实施了这些标准并对多个模型进行了评估,为当前大型语言模型的真正优势和限制提供了深入的见解。
Dec, 2023
我们提出了一种针对开源大型语言模型在 Text-to-SQL 任务中的上下文理解和响应连贯性问题的系统方法,包括对开源大型语言模型在 Text-to-SQL 任务中的全面评估,以及用于有效问题表示的 openprompt 策略、监督微调的新策略、步骤推理中 Chain-of-Thought 的优势探索和用于增强少样本学习的 openexample 方法。此外,我们引入了一些高效的技术,如可变长度的开发数据库架构、目标列截断和示例列截断,解决了大规模数据库中的挑战。我们的研究结果强调了对监督微调对上下文学习能力的影响进行进一步研究的必要性。值得注意的是,我们的方法显著提高了 Llama2-7B 在 BIRD-Dev 数据集上的性能,从 2.54% 提高到 41.04%,Code Llama-7B 在 BIRD-Dev 数据集上的性能甚至超过了 GPT-4(46.35%)。
May, 2024
通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集,该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据,并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感,对于输入表中存在大量语法变化的任务,聚类选择技术优于随机选择基准模型。
Feb, 2024
为了解决金融分析中不存在实用的针对文本到 SQL 的基准数据集以及现有方法未考虑金融应用中数据库的独特特性的问题,我们收集了一个实用的文本到 SQL 基准数据集,并提出了一个基于模型无关的大型语言模型(LLMs)的金融分析文本到 SQL 框架。经过大量实验证明,该框架在小成本下实现了最先进的文本到 SQL 性能,并且在需要少量跨数据库模型转移的场景中可以提高高达 36.64% 的性能。
Jan, 2024