德国新闻文章中的引用归属数据集

COLINGApr, 2024

德国新闻文章中的引用归属数据集

Dataset of Quotation Attribution in German News Articles

Fynn Petersen-Frey, Chris Biemann

TL;DR为分析包括在线新闻文章在内的丰富数据中的人类交流，有效提取说话者、言论内容、受众等是至关重要的。然而，缺乏在德语新闻文章中用于此任务的标注数据严重限制了可能系统的质量和可用性。为解决这一问题，我们提供了一个基于 WIKINEWS 的新的、可自由获取的、创作公共许可证的数据集，用于德语新闻文章中的引用归属。该数据集采用细粒度的注释架构，提供了经过策划的高质量注释，跨越 1000 个文档（250,000 个标记），使得数据集可以应用于多种下游任务。注释不仅指明了谁说了什么，还说明了如何、在什么上下文中以及面向谁的引用的类型。我们具体描述了注释架构，描述了数据集的创建过程，并提供了定量分析。此外，我们描述了适用的评估指标，应用了两个现有的引用归属系统，对它们的结果进行讨论来评估我们数据集的实用性，并概述了在下游任务中使用我们数据集的用例。

Abstract

Extracting who says what to whom is a crucial part in analyzing human communication in today's abundance of data such as online news articles. Yet, the lack of annotated data for this task in german news articles

quotation attribution german news articles annotated data dataset downstream tasks

发现论文，激发创造

Quote Erat Demonstrandum: 一个用于浏览 Quotebank 语料库的 Web 界面

该论文介绍了一个自适应的 Web 界面，用于搜索新闻中的名言佳句，它们提供了一种最直接，最不被过滤的信息传播路径，是记者和研究人员的宝贵资源。

Jul, 2022

FRACAS: 一份用于新闻中归属关系的法语标注语料库

本文介绍了一个手动注释的法语新闻语料库，用于引述提取和来源归属。语料库详细描述了数据选择和注释指南，统计了引述类型的平衡情况，并展示了参与手动标注的 8 名注释员之间的高的注释者一致性。

Sep, 2023

基于引文提取和归属的新闻数据集，用于事实核查专家推荐

本论文提出了一种基于相关性的新闻专家选择任务，通过构建一个包括 24,031 对引语 - 发言人的新闻引文数据集，采用基于 BERT 的问答模型对其进行自动抽取，然后通过文件检索任务鉴定信任专家。实验证明，与专家检索相比，文件检索可以更有效地识别与特定新闻主题相关的专家。

May, 2023

一个德国报纸文本的语言解释语料库

本文介绍了一个为德语文本开发的标注方案和标注工具，旨在基于论述结构进行表征，同时还允许其他表征的提取。本文还讨论了一些方法论问题和现象分析，并重点介绍了在项目中开发的工具及其应用。

Jul, 1998

提升文学小说中自动引用标注的准确性

当前文献关注文学小说中引文归属问题，以引文归属为中心，研究四个相互关联的子任务：人物识别、指代消解、引文辨别和说话人归属。在大量注释了核心指代和引文的文学小说数据集（项目言对小说语料库）上评估了最先进的模型，并针对说话人归属任务进行训练和评估，表明一个简单的连续预测模型具有与最先进模型相当的准确性分数。

Jul, 2023

细粒度捷克新闻文章数据集：信誉度分析的跨学科方法

介绍 Verifee 数据集，其中分类了四种不同的新闻可信度等级，通过调整多种流行序列到序列语言模型，在信任度分类任务中达到了最佳的 F-1 得分 0.52，并通过开源数据集和注释方法有助于防止虚假报道和提高公众媒体素养。

Dec, 2022

对话小说语料库》：文学文本引语归属的数据集

我们介绍了 Project Dialogism Novel Corpus (PDNC)，这是一个包含有英语文学文本引用的注释数据集。PDNC 包含对 22 部小说中的 35,978 个引用的注释，并且是同类数据集中数量级最大的。每个引用都有说话者、被引用者、引用类型、参考表达和引用文本中涉及的角色的注释属性。这些注释属性允许对文学文本中的引用属性和共指模型进行全面评估。

Apr, 2022

克罗地亚新闻文章中引用、指代消解和情感标注：一项探索性研究

本文提供了一个克罗地亚语语料库，在 SETimes 新闻语料库中进行引语，指代关系解决和情感注释的注释，并分析了与英语的语言特定差异。生成的带引文特征注释的语料库可用于自然语言处理领域的多个任务。

Dec, 2022

DAWT: 多语言密集注释维基百科文本

本研究介绍了 DAWT 数据集，包含 13.6M 英文、西班牙语、意大利语、德语、法语和阿拉伯语维基百科文章，共 5.0B 个标记，以及 13.8M 个提及的实体共同出现。同时，我们提出的方法可以扩展维基百科标记，以提高链接的数量，并开放了一些基于数据集的应用，这为自然语言处理和信息检索社区以及多语言研究提供了助力。

Mar, 2017

GermanQuAD 和 GermanDPR: 提高非英语问答和文章检索的能力

本文介绍了一个非英语机器阅读问答研究的主要挑战：缺乏注释数据集。我们随后提出一个德语 QA 数据集（GermanQuAD），总结经验教训，并评估 QA 问答对重组的效果，以加速注释过程。通过 GermanQuAD 数据训练，提出的 QA 模型明显优于多语言模型。最后，将数据集适应于 DPR 语言，训练了第一款非英语 DPR 模型。

Apr, 2021