May, 2023

V2Meow: 通过音乐生成来模拟视觉律动的喵叫

TL;DR本文介绍了一种名为V2Meow的多阶段自回归模型方法,它不需要使用任何平行的象征性音乐数据,通过预训练的可靠视觉特征即可生成与视频语义相对应的高保真音频波形,并支持对音乐风格的高级控制。