Jul, 2024

增强同步性的遮蔽式生成式视频-音频变换器

TL;DR提出了一种名为MaskVAT的V2A生成模型,通过将高质量的全频段音频编解码器与序列到序列的掩码生成模型相互连接,实现了高音质、语义匹配和时间同步性的综合模拟。