BriefGPT.xyz
Ask
alpha
关键词
speech caption
搜索结果 - 1
SPEECH-COCO: 60 万对齐 MSCOCO 数据集的视觉对应口述字幕
本研究介绍了 MSCOCO 数据集的增强版本,其中添加了语音和文本。使用文本转语音(TTS)合成生成语音说明,在语音信号中添加了不流畅和速度扰动以使其更加自然。此语料库可用于语言和视觉(LaVi)任务,其中包括语音输入或输出。同时在此数据集
→
PDF
7 years ago
Prev
Next