KdConv：一个面向多轮知识驱动对话的中文多领域对话数据集

Apr, 2020

KdConv：一个面向多轮知识驱动对话的中文多领域对话数据集

KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation

Hao Zhou, Chujie Zheng, Kaili Huang, Minlie Huang, Xiaoyan Zhu

TL;DR本文提出了一个中文多领域知识驱动会话数据集，该数据集将多轮会话的话题与知识图谱相匹配。我们的语料库包含三个领域（电影，音乐和旅游）的 4.5K 个会话，86K 个话语，平均轮数为 19.0。我们提供了多个基准模型来促进基于该语料库的后续研究。比较结果表明，通过引入背景知识，可以增强模型，但仍有大量空间可用于利用知识来模拟多轮会话以进行进一步研究。结果还表明，不同领域之间存在明显的性能差异，这表明值得进一步探索转移学习和领域适应。该语料库和基准模型是公开可用的。

Abstract

The research of knowledge-driven conversational systems is largely limited due to the lack of dialog data which consist of multi-turn conversations on multiple topics and with →

knowledge-driven conversational systems multi-turn conversations knowledge annotations multi-domain knowledge-driven conversation dataset benchmark models

发现论文，激发创造

NaturalConv：一个面向多轮主题驱动会话的中文对话数据集

本文介绍一个主题驱动的多轮中文对话数据集 ——NaturalConv，提供了包含六个领域的 19,900 个对话和 400,000 个发言，可用于多轮对话系统研究的基准测试，同时为该数据集提供了一些基准模型的结果，并表明引入背景知识 / 主题并不能显著提高模型的性能。

Mar, 2021

QAConv：信息交流的问答

该研究介绍了 QAConv，这是一个新的基于对话的问题回答（QA）数据集，通过长、复杂、异步和涉及强领域知识的信息型对话提供了一个新的训练和评估测试平台来促进 QA 在对话研究中的应用。

May, 2021

针对目标导向的开放领域会话的动态知识路由网络

采用结构化方法和基于语义知识的动态知识路由网络的讨论主题预测，提高了面向目标引导的开放域讨论中关键词的预测效果并大幅提高了成功率。此外，引入了一个新的规模较大的中文目标引导开放域讨论数据集（超过 900K 次会话），提供更具代表性的评估。

Feb, 2020

JDDC 语料库：一种大规模多轮中文对话数据集，用于电子商务客户服务

本文介绍了一种利用深度学习技术构建人类对话体系的具体方法，提出了一个基于大型真实情境的中文电商会话语料库 JDDC，并针对该语料库进行了取样和生成基准测试，该研究为人机对话研究提供了有效的实验平台和参考。

Nov, 2019

CDConv：中文对话矛盾检测基准

本研究提出了一个名为 CDConv 的基准，用于检测中文对话中的矛盾，其中包含 12K 个多回合对话，注释了三种典型的矛盾类别，并展示了最先进的中文聊天机器人很容易被引导产生矛盾。

Oct, 2022

基于动态多形式知识融合的开放域对话生成

本文提出了一种基于动态多种知识融合的开放域聊天机器人模型，其中结构化的三元组来自知识图谱，非结构化的文本来自文档，并采用动态虚拟知识选择器和控制器以及新颖的动态知识内存模块来扩展知识空间，实验结果表明了方法的有效性。

Apr, 2022

KGConv, 一个基于 Wikidata 的对话语料库

KGConv 是一个大型的对话数据集，包含 71,000 个基于 Wikidata 事实的对话，平均每个对话包含 8.6 个问题和对应问题的多个变体。该数据集可用于知识驱动对话问题生成以及其他生成和分析任务。

Aug, 2023

MMDialog：面向多模态开放领域对话的大规模多轮对话数据集

本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务，还构建了两个基线，并提出了一种新的评估指标 MM-Relevance，用于衡量多模态反应。

Nov, 2022

面向文档相关对话的数据集

本研究介绍了一个文档驱动的文本对话数据集，包含关于热门电影的维基百科文章，利用两种神经网络模型对话，结果表明这种方法引入了更多信息，提高了生成回答的流畅度和吸引力。

Sep, 2018

C3KG: 一个中文常识对话知识图谱

本研究针对现有常识知识库的不足，提出了一种基于多轮对话语料库构建的中文常识对话知识图谱，该图谱包含社交常识知识和对话流信息，并开发了图谱 - 对话匹配方法，以此来评估信心图所具有的潜在能力。

Apr, 2022