EMNLPSep, 2018

Spider: 复杂跨领域语义解析和文本到 SQL 任务的大规模人类标注数据集

TL;DR介绍了 Spider 数据集,它是由 11 名大学生注释的大规模、复杂和跨领域的语义分析和文本到 SQL 数据集,涵盖了 200 个数据库中的 138 个不同领域,区别于以往单一数据库且训练集和测试集中使用相同程序的语义分析任务,需要模型具有良好的泛化能力适应新的 SQL 查询和新的数据库架构,经过实验发现最好的模型仅在数据库分割设置上达到了 12.4%的精准匹配准确度,因此结果提出了未来研究的深厚挑战。