EMNLPSep, 2021

探索跨领域文本到 SQL 泛化的未被充分利用的限制

TL;DR在研究神经网络将文本描述翻译成 SQL 查询方面,在零射跨域设置下取得了显著进展,但是现有的文本到 SQL 模型在面对训练数据中很少出现的领域知识时不具有普适性。本文介绍了一种人工筛选的数据集 Spider-DK,用于研究文本到 SQL 模型在需要应用很少出现的领域知识时的预测表现。在 Spider-DK 中,我们通过添加反映现实世界问题的领域知识来修改一些 Spider 的样本,并证明当样本需要这种领域知识时,预测准确率显著下降,即使该领域知识出现在训练集中,模型对相关训练样本的预测仍然正确。