ICCVSep, 2023

声音的力量:稳定扩散下的音频反应视频生成

TL;DR通过使用包含变化的时间语义和大小的音频输入的 The Power of Sound (TPoS) 模型结合文本语义信息和经过预训练的音频编码器的顺序音频嵌入,TPoS 方法能够生成对音频有反应的视频内容,并在各个任务中展示了其有效性,与当前音频到视频生成领域的最新技术进行了比较。