一个大规模的中文短文本对话数据集

Aug, 2020

一个大规模的中文短文本对话数据集

A Large-Scale Chinese Short-Text Conversation Dataset

Yida Wang, Pei Ke, Yinhe Zheng, Kaili Huang, Yong Jiang...

TL;DR本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC，包含基础版和大型版两种版本，共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外，本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型，这些数据集和模型将有助于研究短文本对话建模。

Abstract

The advancements of neural dialogue generation models show promising results on modeling short-text conversations. However, training such models usually needs a large-scale high-quality dialogue corpus, which is hard to access. In this paper, we present a large-scale cleaned

neural dialogue generation models chinese conversation dataset data cleaning pipeline pre-training dialogue models short-text conversation modeling

发现论文，激发创造

JDDC 语料库：一种大规模多轮中文对话数据集，用于电子商务客户服务

本文介绍了一种利用深度学习技术构建人类对话体系的具体方法，提出了一个基于大型真实情境的中文电商会话语料库 JDDC，并针对该语料库进行了取样和生成基准测试，该研究为人机对话研究提供了有效的实验平台和参考。

Nov, 2019

LCSTS: 一个大型的中文短文本摘要数据集

本文介绍了一个由新浪微博构建的大型中文短文本摘要数据集，包含超过 200 万条中文短文本和对应的短摘要，并通过该数据集引入了基于递归神经网络的摘要生成方法，取得了良好的效果，该方法不仅显示了所提出数据集在短文本摘要研究中的有用性，也为后续研究提供了基线。

Jun, 2015

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022

LiveChat: 从直播流自动构建的大规模个性化对话数据集

通过引入 1.33 亿真实的中文对话数据集 LiveChat，并提出基于先进技术的检索式基线方法，本研究在多方对话范围内针对回应建模和宾语识别等两个关键任务进行研究，并验证了利用人物特征和更大的平均会话数对任务的积极影响，同时还提出了当前挑战的未来方向。

Jun, 2023

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

JDDC 2.0 语料库：面向电子商务客服的大规模多模态多轮中文对话数据集

为了解决多模态对话中图像与文本之间的差距，我们构建了一个包含图像、产品知识库和文本的大规模数据集 JDDC 2.0，并给出了基于此数据集的顶尖团队的解决方案，为进一步研究多模态对话任务提供了有价值的启示。

Sep, 2021

Pchatbot: 用于个性化聊天机器人的大规模数据集

介绍了 Pchatbot 数据集，该数据集是从微博和司法论坛等地收集的大规模对话数据集，通过去重、标准化、过滤等过程来适应对话系统，提供匿名用户 ID 和时间戳等隐私保护技术，为未来的个性化对话模型提供基础，公开在 Github 上。

Sep, 2020

MedDialog：两个大规模医学对话数据集

本研究建立了两个大规模医疗对话数据集：MedDialog-EN 和 MedDialog-CN，它们分别包括英语和中文的病患与医生之间的对话，以帮助研究和开发医疗对话系统。这些数据集是迄今为止最大的医疗对话数据集。

Apr, 2020

CLUECorpus2020：用于预训练语言模型的大规模中文语料库

本文介绍了 CLUE 组织的中文语料库 CLUECorpus2020，它是一个大规模的语料库，可直接用于自监督学习。它有 100G 原始语料库，其中包含 350 亿个中文字符，可以用于语言生成和语言模型的预训练。该论文进行了小型和大型的语言理解实验，结果显示训练在此语料库上的模型可以在中文上取得出色的性能。作者还发布了一个新的中文词汇表和经过预训练的模型（大型和小型版本），并将其代码和数据集发布在 Github 上供社区使用。

Mar, 2020

CPED：用于对话 AI 的大规模个性化和情感中文对话数据集

研究表明，说话者的个性和情感对对话有重要影响，因此考虑个性和情感的影响对于对话生成非常重要。为了解决这个问题，我们提出了 CPED: 一个大型、个性化和情感化的对话数据集，包含了与移情和个性特征相关的多源知识，涵盖性别、大五人格特质、13 种情感、19 种对话行为和 10 个场景。该数据集包含了来自 40 个电视节目的 392 个说话者的 12,000 多个对话，是新一代对话人工智能研究的新开放基准。

May, 2022