Mar, 2024

TrustSQL:具备多样性无法回答问题的文本到 SQL 模型可靠性基准测试

TL;DR近期对于大型语言模型的研究取得了显著进展,特别是在将自然语言问题翻译为 SQL 查询方面的准确性能大幅提升。然而,对于实际部署中遇到的各种类型问题,包括无法回答的问题,这些文本到 SQL 模型的可靠性还知之甚少。为了探讨这个方面,我们提出了 TrustSQL,这是一个新的基准系统,旨在评估文本到 SQL 模型在单数据库和跨数据库设置下的可靠性。基准任务要求模型给出两种结果之一:1)SQL 预测;2)不进行预测,无论是由于生成的 SQL 可能存在问题,还是面对无法回答的问题。为了对模型进行评估,我们探索了特定于该任务的各种建模方法,包括:1)为可回答性检测、SQL 生成和错误检测优化独立的模型,然后将它们集成到一个单一的流程中;2)开发一个统一的方法,优化一个单一模型来解决所提出的任务。实验证实了我们的新可靠性评分,表明解决这一挑战涉及到许多不同的研究领域,并为模型发展开辟了新的途径。然而,尽管有这么多的方法,但没有一种能够超越纯基准的可靠性性能,即放弃回答所有问题。