Sep, 2023

通过文本到视频模型的调整实现多样和一致的音视频生成

TL;DR生成多样化和逼真的视频,根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法,将音频基础表示映射到文本 - 视频生成模型所期望的输入表示,实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法,展示了生成的音频视频样本的显著语义多样性,并提出了一种新的评估度量(AV-Align)以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比,我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐,并且呈现更高的视觉质量和多样性。