Sep, 2024

自回归下视频音频的时间对齐

TL;DR本研究解决了视频到音频生成的时间对齐和相关性不足的问题,提出了首个自回归模型V-AURA。通过高帧率视觉特征提取器和跨模态音视频特征融合策略,V-AURA实现了高精度的时间对齐和语义相关性,显著优于现有模型,同时保持音频质量。