ICLRJan, 2023
Dr.Spider:一种针对文本到 SQL 稳健性的诊断评估基准
Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL Robustness
Shuaichen Chang, Jun Wang, Mingwen Dong, Lin Pan, Henghui Zhu...
TL;DR本文提出了一个跨领域文本到 SQL 基准(Spider)的综合健壮性评测来诊断模型的鲁棒性,并设计了 17 个数据库、自然语言问题和 SQL 查询的扰动来从不同角度衡量其鲁棒性。实验结果表明,即使是最鲁棒的模型在最具挑战性的扰动上也会出现 50.7% 的性能下降,分析了文本到 SQL 模型设计并提出了改进鲁棒性的见解。