通过 SQL 查询分解训练表格问答
利用生成模型将自然语言问题转换成 SQL 查询,并通过考虑表格结构和 SQL 语法来提高查询的可执行性和准确性。在 WikiSQL 数据集上进行实验,将执行准确率从 69.0%提高到 74.4%。
Apr, 2018
本研究提出了一种弱监督方法来训练文本到 SQL 解析器,利用 QDMR 结构自动合成 SQL 查询来代替 NL-SQL 注释,结果表明弱监督模型表现与有注释的 NL-SQL 数据训练模型相当,免除 SQL 注释。
Dec, 2021
利用模块化查询计划语言(QPL)将 SQL 查询分解为简单和规则的子查询,通过训练文本到 QPL 解析器,我们获得了对数据库模式敏感的数据检索问题分解器以及更易理解的语义解析器的输出。
Oct, 2023
本文通过在最大手工标注语义解析数据集 WikiSQL 上展示问题生成是一种有效的半监督学习方法,使我们能够用百分之三十的监督训练数据来学习最先进的神经网络语义解析器,并发现语义解析器的准确性和训练数据量之间存在对数关系。
Aug, 2018
本文研究使用深度学习技术回答多步推理问题的方法,该方法基于自然语言问句生成机器可理解的逻辑形式,使用字符和单词 CNN 同时嵌入逻辑形式和问句,并使用神经评分函数检索问题的最可能逻辑形式,取得 38.7% 的最佳性能。
Feb, 2017
研究了如何将复杂的文本到 SQL 任务分解为较小的子任务,从而显著提高大型语言模型(LLMs)在推理过程中的性能,证明了将 SQL 查询分解为子问题并将这些子问题的解决方案提供给 LLMs 可以显著提高性能。在三个 LLMs 上的实验表明,此方法始终将性能提高约 10%,推动 LLMs 的准确性接近最先进水平,甚至超过用于持有 Spider 数据集的大型精调模型。
Apr, 2023
TabSQLify 是一种新颖的方法,通过利用文本转 SQL 生成将表格分解为较小且相关的子表,仅包含回答问题或验证陈述所需的基本信息,然后执行推理任务。在对四个具有挑战性的数据集进行全面评估的情况下,我们的方法展现出与依赖完整表格作为输入的流行方法相当或更好的性能。此外,我们的方法可以显著减少输入上下文的长度,使其在大规模表格推理应用中更具可扩展性和高效性。
Apr, 2024
该论文探究了自然语言生成 SQL 查询的问题,并使用综合方法设计了三个深度神经网络,应用双向注意机制和卷积神经网络的字符级嵌入来提高结果,最终在 WikiSQL 数据集上达到了最先进的结果。
Dec, 2017
该研究综述了文本到结构化查询语言解析的深度学习方法,介绍了单轮和多轮对话的文本到 SQL 解析语料库,阐明了预训练语言模型和现有方法,探讨了面临的挑战和未来发展方向。
Aug, 2022
使用自然语言处理和语义解析的方法,在数据库查询过程中引入智能化,以帮助商业用户能够直接查询数据库。同时增加了自动可视化框架使得产品可供商业使用。
Oct, 2022