May, 2022

通过数据增强解决语义解析中的资源和隐私限制

TL;DR本文介绍了一种应用于低资源任务导向语义解析的新方法,其结合了现实场景中可能出现的多个限制条件,包括缺少相关领域的相似数据集/模型,无法直接从语法中采样有用的逻辑形式以及对未标记的自然语言要求保密性等。我们的目标是通过用户交互收集一些话语来改进低资源语义解析器。在这个高度具有挑战性但现实的设置中,我们探讨了涉及生成一组与逻辑形式相对应的结构化规范话语、模拟相应自然语言并过滤结果对的数据增强方法。我们发现,这种方法在我们的严格设置下也是有效的:在复杂的SMCalFlow日历数据集(Andreas et al.,2020)的低资源情况下,我们观察到与非数据增强基线相比,在前1个匹配中有33%的相对改进。