对话小说语料库》:文学文本引语归属的数据集
本文提出了一个新的数据集,其中包含 100 部英文小说的 29,103 个指代注释,涵盖了 210,532 个标记。这个数据集对比以前的数据集不同的地方在于包含了平均长度为 2,105.3 个单词的文档,是其他基准数据集的四倍长(OntoNotes 为 463.7),并且包含了文学中常见的难度指代问题的示例。这个数据集可以评估指代消解任务的跨领域性能,并分析长距离文档内指代的特征。
Dec, 2019
为分析包括在线新闻文章在内的丰富数据中的人类交流,有效提取说话者、言论内容、受众等是至关重要的。然而,缺乏在德语新闻文章中用于此任务的标注数据严重限制了可能系统的质量和可用性。为解决这一问题,我们提供了一个基于 WIKINEWS 的新的、可自由获取的、创作公共许可证的数据集,用于德语新闻文章中的引用归属。该数据集采用细粒度的注释架构,提供了经过策划的高质量注释,跨越 1000 个文档(250,000 个标记),使得数据集可以应用于多种下游任务。注释不仅指明了谁说了什么,还说明了如何、在什么上下文中以及面向谁的引用的类型。我们具体描述了注释架构,描述了数据集的创建过程,并提供了定量分析。此外,我们描述了适用的评估指标,应用了两个现有的引用归属系统,对它们的结果进行讨论来评估我们数据集的实用性,并概述了在下游任务中使用我们数据集的用例。
Apr, 2024
当前文献关注文学小说中引文归属问题,以引文归属为中心,研究四个相互关联的子任务:人物识别、指代消解、引文辨别和说话人归属。在大量注释了核心指代和引文的文学小说数据集(项目言对小说语料库)上评估了最先进的模型,并针对说话人归属任务进行训练和评估,表明一个简单的连续预测模型具有与最先进模型相当的准确性分数。
Jul, 2023
《KoCoNovel》是一项基于韩国文学文本的创新性人物共参考数据集,从 50 部现代和当代韩国小说中提取的 178K 令牌构成,是继 NIKL 语料库之后韩国第二大公开的人物共参考解析语料库,并且是首个基于文学文本的语料库。该数据集提供四个不同版本的 KoCoNovel,为包括全知作者和读者视角以及单独或重叠处理多个实体的选项提供了选择。实验证明,使用 KoCoNovel 与 NIKL 语料库相比,基于 BERT 的人物共参考模型表现出明显的性能提升,这一发现凸显了 KoCoNovel 通过整合韩国文化和语言动态的潜力,可以显著增强人物共参考解析模型。
Apr, 2024
该论文介绍了一个自适应的 Web 界面,用于搜索新闻中的名言佳句,它们提供了一种最直接,最不被过滤的信息传播路径,是记者和研究人员的宝贵资源。
Jul, 2022
本文提供了一个包含 445 篇人工和计算机生成的文档的语料库,其中包含约 27,000 个从句,注释了语义从句类型和相关关系,以便对人工和自然语篇模式进行微妙的比较。它涵盖了正式和非正式的话语,包括使用 Fine-tuned GPT-2 和 GPT-3 (分别为 Zellers 等人 2019 年和 Brown 等人 2020 年发表的技术) 生成的文档。通过提供初步的证据,我们展示了该语料库对于对生成文本进行详细的话语分析的有用性:较少数量、更短和更不连贯的从句关系与计算机生成的叙述和论述的较低感知质量相关联。
Nov, 2021
介绍 Ubuntu 对话语料库,包含近 100 万个多轮对话,可以用于建立基于神经语言模型的对话管理器,同时提供适用于此数据集的两种神经学习架构,并在选择最佳下一个响应的任务上提供了基准表现。
Jun, 2015
本研究利用 Project Gutenberg 公共领域书籍中的对话构建了一个包括 14.8M 个语言表达的高质量对话数据集,分析并展示了对话提取管道的效果和误差分析。实验表明,训练我们的数据可以比训练更大但更嘈杂的 Opensubtitles 数据集在零射击和精调设置下取得更好的响应质量。同时,我们还建立了一个 Web 演示,通过调整各种平衡参数,研究人员可以构建他们版本的现有数据集。
Apr, 2020
本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC,包含基础版和大型版两种版本,共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外,本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型,这些数据集和模型将有助于研究短文本对话建模。
Aug, 2020
本文介绍了一种利用深度学习技术构建人类对话体系的具体方法,提出了一个基于大型真实情境的中文电商会话语料库 JDDC,并针对该语料库进行了取样和生成基准测试,该研究为人机对话研究提供了有效的实验平台和参考。
Nov, 2019