ColloQL:搜索查询的跨领域文本转 SQL 的鲁棒性解决方案
自然语言处理技术 (NLP) 在信息系统中的交互方式发生了革命性的变化,强调了将自然语言查询转化为 SQL 等形式查询语言,然而对于语料库查询语言 (CQL) 这一在文本语料中进行语言研究和详细分析的关键工具却未受到足够重视,手动构建 CQL 查询是一项复杂、耗时的任务,需要大量专业知识,这对研究人员和从业者都构成了重要挑战。本文提出了第一个文本到 CQL 任务,旨在自动将自然语言转化为 CQL。我们提出了一个全面的框架,包括一个特别策划的大规模数据集和利用大型语言模型 (LLMs) 进行有效的文本到 CQL 任务的方法。此外,我们建立了先进的评估指标来评估生成的查询的句法和语义准确性。我们提供了创新的 LLM 转换方法和详细的实验,并通过实验结果证明了我们方法的有效性,并提供了关于文本到 CQL 任务的复杂性的深入见解。
Feb, 2024
SQLova 是第一个在 WikiSQL 数据集中实现人类性能的自然语言到 SQL 模型,利用了 BERT 通过有效的表格语境方法,结合了多种流行的 NL2SQL 方法,在逻辑形式和执行准确度方面分别优于先前的最新技术水平 8.2%和 2.5%。我们特别注意到,在使用这样的大型预训练模型时,BERT 与序列到序列解码器会导致性能不佳,这表明设计的重要性。我们还对数据集和我们的模型进行了全面的分析,这可能有助于设计未来的 NL2SQL 数据集和模型。我们特别展示了我们模型的表现已经接近 WikiSQL 的上限,在其中我们观察到大部分评估错误是由于错误的注释,而我们的模型在执行准确度方面已经超过人类表现 1.3%。
Feb, 2019
本文研究了使用自然语言作为桥梁,通过有效访问数据库创建一个高效的文本到 SQL 模型,重点探讨了 24 个不同神经网络模型以及 11 个常用数据集的特点和局限性,最终讨论了 Text2SQL 技术在实现无缝数据查询方面的可能性。
Aug, 2022
基于一个实际的部署案例和真实用户提问数据,本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性,并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外,研究还为研究社区提供了一个新的基准数据集,可评估针对不同数据模型的查询复杂度。
Feb, 2024
使用低代码平台中的自然语言(NL)和 SQL 查询数据,我们提出了一个流程,让开发人员能够以自然语言检索数据,并使用 NL 模型生成 SQL。通过与生产数据的反馈,我们验证了流程的有效性,并观察到采用该流程后在四个不同模型中的特性采用率提高了 240%,参与率提高了 220%,失败率降低了 90%。
Aug, 2023
CoSQL 是一个用于构建跨领域、通用的数据库查询对话系统的语料库,其对话状态以 SQL 作为域无关的可执行表示,提供了一种维护自然交互流的方法。
Sep, 2019
NL2KQL 是一种创新的框架,使用大型语言模型将自然语言查询转换为 KQL 查询,并包括模式优化、示例选择和查询修正等关键组件,同时还介绍了一种生成合成 NLQ-KQL 对的方法,并通过在线和离线度量验证了该框架的性能。
Apr, 2024