BriefGPT.xyz
Ask
alpha
关键词
vision-guided
搜索结果 - 1
ICCV
DiffV2S:基于扩散的带视觉引导的视频语音合成
本文提出了一种新颖的视觉导向说话者嵌入提取器,使用自监督预训练模型和提示调整技术,从输入的视觉信息中仅生成丰富的说话者嵌入信息,并在推断时间不需要额外的音频信息。利用提取的视觉导向说话者嵌入表示,我们进一步开发了一种基于扩散的视频到语音合成
→
PDF
a year ago
Prev
Next