Dec, 2020

使用学习的分段单元进行无文本图像合成语音

TL;DR该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型,该模型不需要自然语言文本作为中间表示或监督来源,而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来,这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在 Flickr8k 口述说明数据集上进行了实验,并针对流行的 MSCOCO 数据集收集了一组新的口述说明语音语料库,证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示,并通过实验证明,这些表示必须满足几个重要的属性,才能作为文本的替代品。