串讲者：电视连续剧数据集

Feb, 2020

Serial Speakers: a Dataset of TV Series

Xavier Bost, Vincent Labatut, Georges Linares

TL;DR本研究提供了三部美国热门连续剧《绝命毒师》、《权力的游戏》和《纸牌屋》的 161 个剧集数据集 Serial Speakers，其中提供了每个语音转换（边界、演讲者）和场景边界的注释，以及一些剧集中的互动者和重复拍摄的注释，有助于进行类似多媒体检索和语音处理方面的研究。

Abstract

For over a decade, tv series have been drawing increasing interest, both from the audience and from various academic fields. But while most viewers are hooked on the continuous plots of TV serials, the few annotated datasets available to researchers focus on standalone episodes of clas

tv series annotated dataset multimedia processing speech processing serial speakers

发现论文，激发创造

剧本音视频的讲话人分离

利用制作脚本为演讲人辨别任务提取伪标记数据的半监督方法在 66 个节目测试集上相对于两个非监督基准模型显示出了 51.7% 的改进。

Aug, 2023

基于电视剧的大规模情节导向多模态数据集 PTVD

该研究通过使用 1,106 集电视剧和 24,875 个由专业人士编写的信息密集的剧情句子，进行 449 个人类注释者的标注，构建了第一个面向剧情的电视领域的多模态数据集 PTVD，同时也是该领域中第一个非英文的数据集，并开发了多模态算法，针对不同的电影 / 电视建模问题进行处理，并在三个认知启发任务上进行了广泛的实验，从而验证了该数据集在促进多模态研究上的价值。

Jun, 2023

Speech Wikimedia：一个包含 77 种语言的多语言语音数据集

维基媒体数据集是一个公开可用的音频和转录汇编，包含来自维基共享资源的 1780 小时（195GB）CC-BY-SA 许可的转录语音，在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录，使得此数据集适用于训练语音识别、语音翻译和机器翻译模型。

Aug, 2023

从配音系列中创建语音到语音语料库

本研究提出了一种无监督方法来构建语音到语音语料库，并利用视频帧、语音识别、机器翻译和噪声帧去除算法在短片段层面上对齐源语言和目标语言，以生成一种平行语音语料库，并应用于短音频片段和长音频剪辑，效果表现稳健。

Mar, 2022

Manga109Dialog：一个用于漫画角色语音检测的大规模对话数据集

该论文介绍了一种基于深度学习的模型，用于漫画中的人物对话者检测，其中使用 Mange109Dialog 数据集来提高检测准确率。

Jun, 2023

Hi-Fi 多说者英语语音合成数据集

本文介绍了一个新的多说话人英语数据集用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本，采样率为 44.1 kHz，每个说话者至少有 17 小时的语音。为了选择高质量的语音样本，我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比（SNR）的音频记录。该数据集已公开发布在此 http 网址。

Apr, 2021

DailyTalk: 用于会话文本转语音的口语对话数据集

本文介绍了 DailyTalk 这一高质量的会话 TTS 数据集，该数据集包含来自开放领域对话数据集 DailyDialog 的 2534 个对话，并扩展了 LST-CNN-TTS 模型，结果表明 DailyTalk 数据集可用作通用 TTS 数据集，并且基线模型可以表示 DailyTalk 中的上下文信息。

Jul, 2022

电影故事多语种概要：用于故事理解的数据集

构建大规模多语言视频故事数据集 M-SYMON，包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果，在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点，证明了注释的有效性。同时，我们提供了六种具有不同多语言训练策略的基线方法，比较它们在单语内和跨语言设置中的性能，展示了多语言视频文本对齐的挑战。

Jun, 2024

StoryTTS：一个具有丰富文本表达注释的高度表现力的文本到语音数据集

我们介绍了 StoryTTS，一种包含丰富的声学和文本表现力的 ETTS 数据集，通过系统和全面的标注框架定义了五个维度的文本表现力，并使用大型语言模型进行批量注释，结果是包含 61 小时的连续且高度抑扬顿挫的语音，带有准确的文本转录和丰富的文本表现力注释。实验证明，当与 StoryTTS 中的文本标签集成时，TTS 模型能够生成具有改进表现力的语音。

Apr, 2024

电影叙事概述：一个用于故事理解的视频语言数据集

该研究收集、预处理并公开发布了一个视频 - 语言故事数据集 (SyMoN)，包含 5,193 个受欢迎电影和电视剧的视频摘要，旨在为多模态故事理解的进展打下基础。

Mar, 2022