ICCVSep, 2023
声音的力量:稳定扩散下的音频反应视频生成
The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion
Yujin Jeong, Wonjeong Ryoo, Seunghyun Lee, Dabin Seo, Wonmin Byeon...
TL;DR通过使用包含变化的时间语义和大小的音频输入的 The Power of Sound (TPoS) 模型结合文本语义信息和经过预训练的音频编码器的顺序音频嵌入,TPoS 方法能够生成对音频有反应的视频内容,并在各个任务中展示了其有效性,与当前音频到视频生成领域的最新技术进行了比较。