DailyTalk: 用于会话文本转语音的口语对话数据集
我们开发了一个高质量的多回合对话数据集 DailyDialog,包括人类编写的不太嘈杂的语言,反映我们日常交流方式并涵盖我们日常生活的各种主题。我们手动标记了这个数据集的通信意图和情感信息,并在 DailyDialog 数据集上评估现有的方法,希望它有益于对话系统的研究领域。
Oct, 2017
本文介绍了一个新型的多模式聊天对话数据集 - TikTalk,通过视频社交应用的生成视频和相应的对话对构建对话语料库,通过三种模态的数据(文本、视觉和音频),为聊天机器人的深入理解和响应的生成提出了挑战,实验结果表明,TikTalk 仍有大量改进的空间。
Jan, 2023
本文提出了一种新的任务定向对话数据增强方法 TOD-DA,它包括对话丰富和口语会话模拟器,可以增加大规模高质量带注释口语会话,以提高口语任务定向对话建模的鲁棒性。在 DSTC10 Track2 的两项任务中,我们的方法均排名第一,证明了 TOD-DA 的优越性和有效性。
Dec, 2021
本研究利用 Project Gutenberg 公共领域书籍中的对话构建了一个包括 14.8M 个语言表达的高质量对话数据集,分析并展示了对话提取管道的效果和误差分析。实验表明,训练我们的数据可以比训练更大但更嘈杂的 Opensubtitles 数据集在零射击和精调设置下取得更好的响应质量。同时,我们还建立了一个 Web 演示,通过调整各种平衡参数,研究人员可以构建他们版本的现有数据集。
Apr, 2020
本文介绍了一个新的多说话人英语数据集 用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本,采样率为 44.1 kHz,每个说话者至少有 17 小时的语音。为了选择高质量的语音样本,我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比(SNR)的音频记录。该数据集已公开发布在此 http 网址。
Apr, 2021
本研究介绍了一种新颖的面对面口语对话模型,利用用户输入的音频 - 视觉语音并生成回应的音频 - 视觉语音,旨在创建一种不依赖中间文本的化身聊天机器人系统,并引入 MultiDialog,这是第一个包含约 340 小时近 9000 个对话的大规模多模态(音频和视觉)口语对话语料库。
Jun, 2024
这篇论文介绍了一个高质量的蒙古文开源文本到语音(TTS)综合数据集,这是第一个公开可用的数据集,为蒙古 TTS 应用在学术界和工业界的推广做出了贡献。该数据集共包括了约 8 小时的由 22 岁的专业女性蒙古语播音员朗读并进行转录的音频记录。论文中描述了数据集开发的过程、面临的挑战以及构建基于 FastSpeech2 模型和 HiFi-GAN 声码器非自回归基线系统的经验和评估结果,该系统在 MOS 评分上达到 4 以上且 RTF 约为 $3.30 imes10^{-1}$,可以实际应用。
Sep, 2022
本研究介绍了一个文档驱动的文本对话数据集,包含关于热门电影的维基百科文章,利用两种神经网络模型对话,结果表明这种方法引入了更多信息,提高了生成回答的流畅度和吸引力。
Sep, 2018
本文提出了一种新方法 —— 通过众包自对话方式高效地收集主题上的非结构化对话数据,并提供包含 23 个主题的 360 万词汇量的语料库,通过与其他语料库的比较证明了其实用性。
Sep, 2018