Apr, 2022

对话小说语料库》:文学文本引语归属的数据集

TL;DR我们介绍了 Project Dialogism Novel Corpus (PDNC),这是一个包含有英语文学文本引用的注释数据集。PDNC 包含对 22 部小说中的 35,978 个引用的注释,并且是同类数据集中数量级最大的。每个引用都有说话者、被引用者、引用类型、参考表达和引用文本中涉及的角色的注释属性。这些注释属性允许对文学文本中的引用属性和共指模型进行全面评估。