串讲者:电视连续剧数据集
该研究通过使用 1,106 集电视剧和 24,875 个由专业人士编写的信息密集的剧情句子,进行 449 个人类注释者的标注,构建了第一个面向剧情的电视领域的多模态数据集 PTVD,同时也是该领域中第一个非英文的数据集,并开发了多模态算法,针对不同的电影 / 电视建模问题进行处理,并在三个认知启发任务上进行了广泛的实验,从而验证了该数据集在促进多模态研究上的价值。
Jun, 2023
维基媒体数据集是一个公开可用的音频和转录汇编,包含来自维基共享资源的 1780 小时(195GB)CC-BY-SA 许可的转录语音,在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录,使得此数据集适用于训练语音识别、语音翻译和机器翻译模型。
Aug, 2023
本研究提出了一种无监督方法来构建语音到语音语料库,并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言,以生成一种平行语音语料库,并应用于短音频片段和长音频剪辑,效果表现稳健。
Mar, 2022
该论文介绍了一种基于深度学习的模型,用于漫画中的人物对话者检测,其中使用 Mange109Dialog 数据集来提高检测准确率。
Jun, 2023
本文介绍了一个新的多说话人英语数据集 用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本,采样率为 44.1 kHz,每个说话者至少有 17 小时的语音。为了选择高质量的语音样本,我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比(SNR)的音频记录。该数据集已公开发布在此 http 网址。
Apr, 2021
本文介绍了 DailyTalk 这一高质量的会话 TTS 数据集,该数据集包含来自开放领域对话数据集 DailyDialog 的 2534 个对话,并扩展了 LST-CNN-TTS 模型,结果表明 DailyTalk 数据集可用作通用 TTS 数据集,并且基线模型可以表示 DailyTalk 中的上下文信息。
Jul, 2022
构建大规模多语言视频故事数据集 M-SYMON,包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果,在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点,证明了注释的有效性。同时,我们提供了六种具有不同多语言训练策略的基线方法,比较它们在单语内和跨语言设置中的性能,展示了多语言视频文本对齐的挑战。
Jun, 2024
我们介绍了 StoryTTS,一种包含丰富的声学和文本表现力的 ETTS 数据集,通过系统和全面的标注框架定义了五个维度的文本表现力,并使用大型语言模型进行批量注释,结果是包含 61 小时的连续且高度抑扬顿挫的语音,带有准确的文本转录和丰富的文本表现力注释。实验证明,当与 StoryTTS 中的文本标签集成时,TTS 模型能够生成具有改进表现力的语音。
Apr, 2024
该研究收集、预处理并公开发布了一个视频 - 语言故事数据集 (SyMoN),包含 5,193 个受欢迎电影和电视剧的视频摘要,旨在为多模态故事理解的进展打下基础。
Mar, 2022