揭示数据库的漏洞：文本到 SQL 系统中的零知识模式推理攻击

Jun, 2024

揭示数据库的漏洞：文本到 SQL 系统中的零知识模式推理攻击

Unmasking Database Vulnerabilities: Zero-Knowledge Schema Inference Attacks in Text-to-SQL Systems

Đorđe Klisura, Anthony Rios

TL;DR通过特别设计的问题，我们开发了一种零知识的框架，用于探测数据库模式的各种元素，从而揭示数据库模式的结构。我们将其应用于文本到 SQL 模型和生成语言模型，可以在细调模型中以近.75 的 F1 值和生成模型中以.96 的 F1 值重建表名。

Abstract

relational databases are integral to modern information systems, serving as the foundation for storing, querying, and managing data efficiently and effectively. Advancements in large language modeling have led to the emergence of →

relational databases text-to-sql technologies privacy and security database schema elements sql injection

发现论文，激发创造

利用表格内容进行元学习的零样本文本到 SQL

本研究提出了一种新的零样本文本到 SQL 任务中的方法，该方法不依赖于任何额外的手动注释，并在 WikiSQL 数据集和 ESQL 数据集上展开了广泛实验，相较于使用相同预训练模型的现有方法，我们的方法在两个数据集上都取得了显著的改进，特别是在零样本子集上，我们的方法进一步提高了改进。

Sep, 2021

基于物联网防御的文本转 SQL 之上：用于查询和分类物联网威胁的全面框架

基于物联网文本到 SQL 数据集，我们研究了如何从返回的数据中推断新信息，通过两阶段处理（查询和数据信息推断）可以改善文本到 SQL 的性能，并提供了测试领域特定推理的新方法。

Jun, 2024

文本到 SQL 模型的安全漏洞

该研究旨在揭示自然语言处理算法易受攻击的弱点是否可能导致软件安全威胁。通过对常用于创建自然语言数据库接口的 Text-to-SQL 系统进行漏洞测试，作者发现 6 款商业应用程序的 Text-to-SQL 模块可以被操纵产生恶意代码，潜在地导致数据泄露和拒绝服务攻击，这是第一次演示了 NLP 模型可以作为攻击向量在野外被利用。此外，使用四个开源语言模型的实验验证了直接后门攻击 Text-to-SQL 系统可以在不影响其性能的情况下实现 100％的成功率。研究呼吁学术界和业界关注 NLP 算法相关软件安全问题，并鼓励探索缓解措施。

Nov, 2022

基于真实用户查询评估文本到 SQL 系统的数据模型稳健性

基于一个实际的部署案例和真实用户提问数据，本研究评估了 Text-to-SQL 系统在不同数据模型下的健壮性，并探讨了语言模型的性能以及训练数据规模、预处理和后处理步骤对系统性能的影响。此外，研究还为研究社区提供了一个新的基准数据集，可评估针对不同数据模型的查询复杂度。

Feb, 2024

通用且鲁棒的文本到 SQL 解析

研究 text-to-SQL parsing 在三个层面的泛化性和抗扰性，提出 TKK framework 用于学习 text-to-SQL parsing，该框架在多个测试数据集上表现出了显著的效果。

Oct, 2022

辅助任务零样本文本到 SQL 学习

研究了神经序列到序列模型在自然生成的 SQL 任务中的泛化能力问题，并通过构建辅助任务并在 WikiSQL 数据集上的实验中证明其有效性。

Aug, 2019

面向复杂文本到 SQL 的模式感知多任务学习

传统的文本到 SQL 解析器在合成涉及多个表格或列的复杂 SQL 查询方面表现不佳，为了解决这个问题，我们提出了一种面向模式的多任务学习框架（名为 MTSQL）来处理复杂的 SQL 查询。通过设计一个模式链接鉴别器模块来区分有效的问题 - 模式关联，明确指示编码器通过特殊的链接关系来增强对齐质量。在解码器方面，我们定义了 6 种关系类型来描述表格和列之间的连接，并引入以运算符为中心的三元抽取器来识别那些与预定义关系相关的模式项。此外，我们通过预测的三元组建立了一组语法约束规则集，用于在 SQL 生成过程中过滤适当的 SQL 运算符和模式项。在跨领域的具有挑战性的文本到 SQL 基准测试 Spider 上，实验结果表明 MTSQL 比基线方法更有效，特别是在极端困难的场景中。此外，进一步的分析验证了我们的方法在处理复杂 SQL 查询方面的有希望的改进。

Mar, 2024

探索跨领域文本到 SQL 泛化的未被充分利用的限制

在研究神经网络将文本描述翻译成 SQL 查询方面，在零射跨域设置下取得了显著进展，但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK，用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中，我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本，并证明当样本需要这种领域知识时，预测准确率显著下降，即使该领域知识出现在训练集中，模型对相关训练样本的预测仍然正确。

Sep, 2021

Proton：用于预训练语言模型的模式链接信息探究，以支持文本到 SQL 解析

本论文提出了一种新的框架，基于 Poincaré 距离度量，通过探测程序从大规模预训练的语言模型中引出关系结构，以加强当前基于图的解析器，进而实现更好的模式链接。

Jun, 2022

TrustSQL：具备多样性无法回答问题的文本到 SQL 模型可靠性基准测试

近期对于大型语言模型的研究取得了显著进展，特别是在将自然语言问题翻译为 SQL 查询方面的准确性能大幅提升。然而，对于实际部署中遇到的各种类型问题，包括无法回答的问题，这些文本到 SQL 模型的可靠性还知之甚少。为了探讨这个方面，我们提出了 TrustSQL，这是一个新的基准系统，旨在评估文本到 SQL 模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一：1）SQL 预测；2）不进行预测，无论是由于生成的 SQL 可能存在问题，还是面对无法回答的问题。为了对模型进行评估，我们探索了特定于该任务的各种建模方法，包括：1）为可回答性检测、SQL 生成和错误检测优化独立的模型，然后将它们集成到一个单一的流程中；2）开发一个统一的方法，优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分，表明解决这一挑战涉及到许多不同的研究领域，并为模型发展开辟了新的途径。然而，尽管有这么多的方法，但没有一种能够超越纯基准的可靠性性能，即放弃回答所有问题。

Mar, 2024