BriefGPT.xyz
Ask
alpha
关键词
self-supervised visual grounding task
搜索结果 - 1
使用学习的分段单元进行无文本图像合成语音
该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型,该模型不需要自然语言文本作为中间表示或监督来源,而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来,这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在
→
PDF
4 years ago
Prev
Next