Jul, 2024

序列对比视听学习

TL;DR基于时间聚合派生的合并表示方式对音频 - 视觉对比学习的局限性提出关注,因此提出了顺序对比音频 - 视觉学习 (SCAV) 方法,在非合并表示空间中使用顺序距离对示例进行对比。使用 VGGSound 和 Music 数据集进行检索实验验证了 SCAV 的有效性,相对于传统的基于聚合的对比学习和文献中的其他方法,SCAV 取得了 2-3 倍的相对改进。同时,还展示了使用 SCAV 训练的模型在检索时对所采用的度量具有高度的灵活性,可以在效率 - 准确性的多个场景中应用。