BriefGPT.xyz
Ask
alpha
关键词
melception
搜索结果 - 1
控制视觉引导的声音生成
本文在视觉诱发音频生成方面进行了研究,提出了一种单一模型,可以在比单个 GPU 播放时间更短的时间内生成高保真、与视觉相符的声音,并使用新型的 FID 和 MKL 度量标准对其进行了评估。
PDF
3 years ago
Prev
Next