Jul, 2024

序列对比视听学习

TL;DR基于时间聚合派生的合并表示方式对音频-视觉对比学习的局限性提出关注,因此提出了顺序对比音频-视觉学习 (SCAV)方法,在非合并表示空间中使用顺序距离对示例进行对比。使用VGGSound和Music数据集进行检索实验验证了SCAV的有效性,相对于传统的基于聚合的对比学习和文献中的其他方法,SCAV取得了2-3倍的相对改进。同时,还展示了使用SCAV训练的模型在检索时对所采用的度量具有高度的灵活性,可以在效率-准确性的多个场景中应用。