COLINGApr, 2024

德国新闻文章中的引用归属数据集

TL;DR为分析包括在线新闻文章在内的丰富数据中的人类交流,有效提取说话者、言论内容、受众等是至关重要的。然而,缺乏在德语新闻文章中用于此任务的标注数据严重限制了可能系统的质量和可用性。为解决这一问题,我们提供了一个基于 WIKINEWS 的新的、可自由获取的、创作公共许可证的数据集,用于德语新闻文章中的引用归属。该数据集采用细粒度的注释架构,提供了经过策划的高质量注释,跨越 1000 个文档(250,000 个标记),使得数据集可以应用于多种下游任务。注释不仅指明了谁说了什么,还说明了如何、在什么上下文中以及面向谁的引用的类型。我们具体描述了注释架构,描述了数据集的创建过程,并提供了定量分析。此外,我们描述了适用的评估指标,应用了两个现有的引用归属系统,对它们的结果进行讨论来评估我们数据集的实用性,并概述了在下游任务中使用我们数据集的用例。