ICLRJan, 2023

Dr.Spider:一种针对文本到 SQL 稳健性的诊断评估基准

TL;DR本文提出了一个跨领域文本到 SQL 基准(Spider)的综合健壮性评测来诊断模型的鲁棒性,并设计了 17 个数据库、自然语言问题和 SQL 查询的扰动来从不同角度衡量其鲁棒性。实验结果表明,即使是最鲁棒的模型在最具挑战性的扰动上也会出现 50.7% 的性能下降,分析了文本到 SQL 模型设计并提出了改进鲁棒性的见解。