古腾堡对话数据集

ACLApr, 2020

The Gutenberg Dialogue Dataset

Richard Csaky, Gabor Recski

TL;DR本研究利用 Project Gutenberg 公共领域书籍中的对话构建了一个包括 14.8M 个语言表达的高质量对话数据集，分析并展示了对话提取管道的效果和误差分析。实验表明，训练我们的数据可以比训练更大但更嘈杂的 Opensubtitles 数据集在零射击和精调设置下取得更好的响应质量。同时，我们还建立了一个 Web 演示，通过调整各种平衡参数，研究人员可以构建他们版本的现有数据集。

Abstract

Large datasets are essential for neural modeling of many nlp tasks. Current publicly available open-domain dialogue datasets offer a trade-off between quality (e.g., DailyDialog) and size (e.g., Opensubtitles). W

dialogue dataset neural modeling nlp tasks language processing project gutenberg

发现论文，激发创造

多语言聊天数据集：Tagengo

我们提供了一个高质量的数据集，包含 74 种语言中的超过 70k 个提示 - 回应对，用于训练最先进的开源英语语言模型，以实现多语言对话。在 6 种语言的 MT-Bench 对话基准测试中，我们的多语言模型优于先前的开源语言模型。此外，我们发现在更多多语言数据上进行训练有助于比仅仅在特定语言的数据上进行训练（如日语），从而提高性能。这些结果表明，在大量高质量多语言数据的训练下，实现更易用的语言模型变得必要。

May, 2024

DailyTalk: 用于会话文本转语音的口语对话数据集

本文介绍了 DailyTalk 这一高质量的会话 TTS 数据集，该数据集包含来自开放领域对话数据集 DailyDialog 的 2534 个对话，并扩展了 LST-CNN-TTS 模型，结果表明 DailyTalk 数据集可用作通用 TTS 数据集，并且基线模型可以表示 DailyTalk 中的上下文信息。

Jul, 2022

Ubuntu 对话语料库：一份用于非结构化多轮对话系统研究的大型数据集

介绍 Ubuntu 对话语料库，包含近 100 万个多轮对话，可以用于建立基于神经语言模型的对话管理器，同时提供适用于此数据集的两种神经学习架构，并在选择最佳下一个响应的任务上提供了基准表现。

Jun, 2015

Hi-Fi 多说者英语语音合成数据集

本文介绍了一个新的多说话人英语数据集用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本，采样率为 44.1 kHz，每个说话者至少有 17 小时的语音。为了选择高质量的语音样本，我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比（SNR）的音频记录。该数据集已公开发布在此 http 网址。

Apr, 2021

Taskmaster-1: 迈向逼真多样话语数据集

该研究介绍了一个新的数据集 Taskmaster-1，其中包括 13,215 个基于任务的对话，包括六个领域。数据集包含了更多现实和多样化的对话，使用了两种不同的方法进行数据收集并提供了多个基准模型，其中 API 调用和参数被标记为基于任务的对话系统的研究、开发和设计提供了新的前景。

Sep, 2019

HUI-Audio-Corpus-German：高品质 TTS 数据集

通过神经网络的发展和训练，基于音频数据的 TTS 应用的数据集越来越多，但不同质量的声音、低采样率、缺乏文本规范化以及音频样本与对应转录句子的对齐不利于深度神经网络的表现，而语言资源的问题更为突出。我们输入 “HUI-Audio-Corpus-German” 数据集，采用处理工具的方式产生高质量音频，降低手动创建的难度。

Jun, 2021

开放域对话数据集中的重叠问题的实证研究

本文指出了流行的 DailyDialog 和 OpenSubtitles 等开放领域对话基准数据集中存在的重叠问题，分析其可能导致人为创造虚假性能结果。最后，通过对这些数据集的清理和建立适当的数据处理程序来解决这个问题，以供未来的研究使用。

Jan, 2022

音频对话：用于音频和音乐理解的对话数据集

通过大型语言模型生成多轮对话，展示了音频理解中的复杂性和适用性。

Apr, 2024

MedDialog：两个大规模医学对话数据集

本研究建立了两个大规模医疗对话数据集：MedDialog-EN 和 MedDialog-CN，它们分别包括英语和中文的病患与医生之间的对话，以帮助研究和开发医疗对话系统。这些数据集是迄今为止最大的医疗对话数据集。

Apr, 2020

构建数据驱动对话系统的可用语料库调查

通过调查可用于数据驱动型对话系统学习的公开数据集，讨论了这些数据集的重要特征，如何使用它们学习不同的对话策略以及它们的其他潜在用途。同时还研究了数据集之间的迁移学习方法和外部知识的应用，并讨论了适当的评估指标选择。

Dec, 2015