ACLApr, 2019

PAWS:单词混淆的释义对抗

TL;DR该论文介绍了一个名为 PAWS 的新数据集,其包含具有高词汇重叠的 108,463 个良好构造的释义对和非释义对,由受控词汇交换和回译产生,并由人类评定其流利度和释义;在现有数据集上表现出色的模型对于 PAWS 数据表现不佳。然而,将 PAWS 训练数据用于这些模型可以提高其准确性为 85%,同时保持对现有任务的性能。相比之下,无法捕获非局部上下文信息的模型即使有 PAWS 训练示例也会失败;因此,PAWS 为推动更好地利用结构、上下文和成对比较的模型的进一步进展提供了一个有效的工具。