Jan, 2024

Synchformer: 从稀疏提示实现高效同步

TL;DR我们的研究目标是在 YouTube 等 ' 野外 ' 视频中实现音频和视觉的同步,我们提出了一种新颖的音视频同步模型,并通过多模式片段级对比预训练将特征提取与同步建模分离开来。这种方法在密集和稀疏环境下都实现了最先进的性能,并将同步模型训练扩展到了 AudioSet 这个年度规模的 ' 野外 ' 数据集,并研究了可解释性的证据归因技术,探索了同步模型的新能力:音视频同步能力。