Jul, 2020

DART: 开放域结构化数据记录到文本生成

TL;DR本文提出了DART数据集,其中包含超过82k条开放领域结构化数据到文本生成实例。我们通过从表中提取语义三元组的方式,以及利用标头之间的语义依赖关系和表标题来编码表的结构,提出了一种数据到文本生成的注释程序。我们还将从开放领域语义解析和对话行为意义表示任务中提取的异构源有效地合并,以及提出了数据集构建框架,利用树本体注释、问答对到陈述句的转换和谓词统一等技术进行最少的后期编辑。我们在DART上进行了系统评估,并展示了WebNLG 2017的最新成果,证明DART(1)对现有数据到文本数据集提出了新的挑战,(2)促进了跨领域的泛化。