Apr, 2020

KdConv:一个面向多轮知识驱动对话的中文多领域对话数据集

TL;DR本文提出了一个中文多领域知识驱动会话数据集,该数据集将多轮会话的话题与知识图谱相匹配。我们的语料库包含三个领域(电影,音乐和旅游)的 4.5K 个会话,86K 个话语,平均轮数为 19.0。我们提供了多个基准模型来促进基于该语料库的后续研究。比较结果表明,通过引入背景知识,可以增强模型,但仍有大量空间可用于利用知识来模拟多轮会话以进行进一步研究。结果还表明,不同领域之间存在明显的性能差异,这表明值得进一步探索转移学习和领域适应。该语料库和基准模型是公开可用的。