对话小说语料库》：文学文本引语归属的数据集

Apr, 2022

对话小说语料库》：文学文本引语归属的数据集

The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution in Literary Texts

Krishnapriya Vishnubhotla, Adam Hammond, Graeme Hirst

TL;DR我们介绍了 Project Dialogism Novel Corpus (PDNC)，这是一个包含有英语文学文本引用的注释数据集。PDNC 包含对 22 部小说中的 35,978 个引用的注释，并且是同类数据集中数量级最大的。每个引用都有说话者、被引用者、引用类型、参考表达和引用文本中涉及的角色的注释属性。这些注释属性允许对文学文本中的引用属性和共指模型进行全面评估。

Abstract

We present the project dialogism novel corpus, or PDNC, an annotated dataset of quotations for English →

project dialogism novel corpus annotated dataset quotations literary texts coreference

发现论文，激发创造

英文文学代词消解的已注释数据集

本文提出了一个新的数据集，其中包含 100 部英文小说的 29,103 个指代注释，涵盖了 210,532 个标记。这个数据集对比以前的数据集不同的地方在于包含了平均长度为 2,105.3 个单词的文档，是其他基准数据集的四倍长（OntoNotes 为 463.7），并且包含了文学中常见的难度指代问题的示例。这个数据集可以评估指代消解任务的跨领域性能，并分析长距离文档内指代的特征。

Dec, 2019

德国新闻文章中的引用归属数据集

为分析包括在线新闻文章在内的丰富数据中的人类交流，有效提取说话者、言论内容、受众等是至关重要的。然而，缺乏在德语新闻文章中用于此任务的标注数据严重限制了可能系统的质量和可用性。为解决这一问题，我们提供了一个基于 WIKINEWS 的新的、可自由获取的、创作公共许可证的数据集，用于德语新闻文章中的引用归属。该数据集采用细粒度的注释架构，提供了经过策划的高质量注释，跨越 1000 个文档（250,000 个标记），使得数据集可以应用于多种下游任务。注释不仅指明了谁说了什么，还说明了如何、在什么上下文中以及面向谁的引用的类型。我们具体描述了注释架构，描述了数据集的创建过程，并提供了定量分析。此外，我们描述了适用的评估指标，应用了两个现有的引用归属系统，对它们的结果进行讨论来评估我们数据集的实用性，并概述了在下游任务中使用我们数据集的用例。

Apr, 2024

提升文学小说中自动引用标注的准确性

当前文献关注文学小说中引文归属问题，以引文归属为中心，研究四个相互关联的子任务：人物识别、指代消解、引文辨别和说话人归属。在大量注释了核心指代和引文的文学小说数据集（项目言对小说语料库）上评估了最先进的模型，并针对说话人归属任务进行训练和评估，表明一个简单的连续预测模型具有与最先进模型相当的准确性分数。

Jul, 2023

KoCoNovel：韩国小说中的人物指代注释数据集

《KoCoNovel》是一项基于韩国文学文本的创新性人物共参考数据集，从 50 部现代和当代韩国小说中提取的 178K 令牌构成，是继 NIKL 语料库之后韩国第二大公开的人物共参考解析语料库，并且是首个基于文学文本的语料库。该数据集提供四个不同版本的 KoCoNovel，为包括全知作者和读者视角以及单独或重叠处理多个实体的选项提供了选择。实验证明，使用 KoCoNovel 与 NIKL 语料库相比，基于 BERT 的人物共参考模型表现出明显的性能提升，这一发现凸显了 KoCoNovel 通过整合韩国文化和语言动态的潜力，可以显著增强人物共参考解析模型。

Apr, 2024

Quote Erat Demonstrandum: 一个用于浏览 Quotebank 语料库的 Web 界面

该论文介绍了一个自适应的 Web 界面，用于搜索新闻中的名言佳句，它们提供了一种最直接，最不被过滤的信息传播路径，是记者和研究人员的宝贵资源。

Jul, 2022

人类和计算机话语结构的新型语料库

本文提供了一个包含 445 篇人工和计算机生成的文档的语料库，其中包含约 27,000 个从句，注释了语义从句类型和相关关系，以便对人工和自然语篇模式进行微妙的比较。它涵盖了正式和非正式的话语，包括使用 Fine-tuned GPT-2 和 GPT-3 (分别为 Zellers 等人 2019 年和 Brown 等人 2020 年发表的技术) 生成的文档。通过提供初步的证据，我们展示了该语料库对于对生成文本进行详细的话语分析的有用性：较少数量、更短和更不连贯的从句关系与计算机生成的叙述和论述的较低感知质量相关联。

Nov, 2021

Ubuntu 对话语料库：一份用于非结构化多轮对话系统研究的大型数据集

介绍 Ubuntu 对话语料库，包含近 100 万个多轮对话，可以用于建立基于神经语言模型的对话管理器，同时提供适用于此数据集的两种神经学习架构，并在选择最佳下一个响应的任务上提供了基准表现。

Jun, 2015

古腾堡对话数据集

本研究利用 Project Gutenberg 公共领域书籍中的对话构建了一个包括 14.8M 个语言表达的高质量对话数据集，分析并展示了对话提取管道的效果和误差分析。实验表明，训练我们的数据可以比训练更大但更嘈杂的 Opensubtitles 数据集在零射击和精调设置下取得更好的响应质量。同时，我们还建立了一个 Web 演示，通过调整各种平衡参数，研究人员可以构建他们版本的现有数据集。

Apr, 2020

一个大规模的中文短文本对话数据集

本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC，包含基础版和大型版两种版本，共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外，本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型，这些数据集和模型将有助于研究短文本对话建模。

Aug, 2020

JDDC 语料库：一种大规模多轮中文对话数据集，用于电子商务客户服务

本文介绍了一种利用深度学习技术构建人类对话体系的具体方法，提出了一个基于大型真实情境的中文电商会话语料库 JDDC，并针对该语料库进行了取样和生成基准测试，该研究为人机对话研究提供了有效的实验平台和参考。

Nov, 2019