Aug, 2020

一个大规模的中文短文本对话数据集

TL;DR本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC,包含基础版和大型版两种版本,共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外,本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型,这些数据集和模型将有助于研究短文本对话建模。