UNITE: 一个用于文本到SQL评估的统一基准
本文研究基于自然语言理解的语义解析数据集,提出了一个包含真实用例中语句与SQL的对应关系的SEDE 数据集,并展示该数据集所带来的挑战与实用性,进一步表明针对真实用例的数据集更适合进行语义解析任务的评估。
Jun, 2021
本文探讨了实现自然语言查询现实关系数据库的挑战,提出了一个新的跨领域评估数据集KaggleDBQA,并通过引入数据库文档等隐含领域知识的方法,将现有模型的准确性提高了13.2%。
Jun, 2021
通过对 Codex 语言模型的 Text-to-SQL 能力进行实证评估,我们发现 Codex 在 Spider 基准测试中是一个强有力的基线,并分析了 Codex 在该设置中的失败模式。此外,我们展示了在 GeoQuery 和 Scholar 基准测试中,提供少量领域内示例可以使 Codex 表现优于针对这些少量样例进行微调的现有模型。
Mar, 2022
研究text-to-SQL parsing在三个层面的泛化性和抗扰性,提出TKK framework用于学习text-to-SQL parsing,该框架在多个测试数据集上表现出了显著的效果。
Oct, 2022
本文提出了一个名为Bird的大规模基准数据集,旨在填补现有基准测试数据集在数据库值、外部知识和SQL某些方面的不足。实验结果表明,在大型数据库的文本到SQL转换中,数据库值具有重要意义。同时,最先进的文本到SQL模型ChatGPT,转换准确度仅为40.08%,距离人类结果92.96%还有巨大的差距。
May, 2023
本文介绍了 ScienceBenchmark,这是一个 NL-to-SQL 基准,旨在使高度特定于领域的数据库中的自然语言查询能够正常工作,并扩展了人工生成数据的数量,以使用 GPT-3 生成合成数据。
Jun, 2023
本文对大型语言模型(LLMs)在Text-to-SQL任务中的应用进行了研究,提出了一种新的集成解决方案DAIL-SQL,并通过实验证明了其在Spider排行榜上取得了86.6%的执行准确率。研究重点在于提示工程中的令牌效率和任务特定的监督微调。通过探索开源LLMs在Text-to-SQL中的潜力,以及任务特定的监督微调的优势和劣势,希望能够对LLMs在Text-to-SQL领域提供更深入的了解,并激发进一步的研究和广泛应用。
Aug, 2023
通过对几个重要的跨领域文本到SQL基准进行广泛的研究和重新评估,本文发现由于提供的样本可能有多个解释,这些基准的完美表现是不可行的,并且在重新评估后,模型的相对性能会发生变化。最令人瞩目的是,我们的评估发现,最近基于GPT4的模型在人工评估中超过了Spider基准中的金标准参考查询,这一发现强调了在谨慎解读基准评估的同时,独立评估在推动该领域进展中起到关键作用。
Oct, 2023
近期对于大型语言模型的研究取得了显著进展,特别是在将自然语言问题翻译为SQL查询方面的准确性能大幅提升。然而,对于实际部署中遇到的各种类型问题,包括无法回答的问题,这些文本到SQL模型的可靠性还知之甚少。为了探讨这个方面,我们提出了TrustSQL,这是一个新的基准系统,旨在评估文本到SQL模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一:1)SQL预测;2)不进行预测,无论是由于生成的SQL可能存在问题,还是面对无法回答的问题。为了对模型进行评估,我们探索了特定于该任务的各种建模方法,包括:1)为可回答性检测、SQL生成和错误检测优化独立的模型,然后将它们集成到一个单一的流程中;2)开发一个统一的方法,优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分,表明解决这一挑战涉及到许多不同的研究领域,并为模型发展开辟了新的途径。然而,尽管有这么多的方法,但没有一种能够超越纯基准的可靠性性能,即放弃回答所有问题。
Mar, 2024
本研究旨在解决当前文本到SQL转换中的复杂数据库架构处理和用户查询歧义问题。提出的E-SQL新模型通过直接架构链接和候选谓词增强来改进自然语言查询,与数据库结构更好地结合。实验结果表明,E-SQL在复杂查询上表现出色,测试集的执行准确率达到66.29%。
Sep, 2024