Jul, 2017

SPEECH-COCO: 60 万对齐 MSCOCO 数据集的视觉对应口述字幕

TL;DR本研究介绍了 MSCOCO 数据集的增强版本,其中添加了语音和文本。使用文本转语音(TTS)合成生成语音说明,在语音信号中添加了不流畅和速度扰动以使其更加自然。此语料库可用于语言和视觉(LaVi)任务,其中包括语音输入或输出。同时在此数据集的一个子集上进行了初步的研究,探索了无监督语音模式发现的多模态学习方案。