Dec, 2019

英文文学代词消解的已注释数据集

TL;DR本文提出了一个新的数据集,其中包含 100 部英文小说的 29,103 个指代注释,涵盖了 210,532 个标记。这个数据集对比以前的数据集不同的地方在于包含了平均长度为 2,105.3 个单词的文档,是其他基准数据集的四倍长(OntoNotes 为 463.7),并且包含了文学中常见的难度指代问题的示例。这个数据集可以评估指代消解任务的跨领域性能,并分析长距离文档内指代的特征。