ACLJun, 2018

改进文本到 SQL 评估方法

TL;DR为了评估系统在现实世界中未见数据上的泛化能力,本文首先比较了人工生成和自动生成的问题,提出了当前 Text-to-SQL 系统评估的局限性和改进方法。其次,我们展示了现有数据集分为训练集和测试集的方法只能部分测试系统对新查询的泛化能力,因此提出了评估未来工作的补充数据集划分。最后,我们展示了在评估时变量的匿名会去除该任务的一个重要挑战。我们的观察强调了关键困难,并启发未来研究的有效衡量方法。