Mar, 2024

无监督可迁移模态视频精彩片段检测与表示激活序列学习

TL;DR通过跨模态感知和自重建任务,在视觉 - 音频对数据中学习视觉 - 音频语义表示的网络,并通过表示激活序列学习模块(RASL)和对称对比学习模块(SCL)连接视觉模态与音频模态,提出了一种用于无监督高光检测的模型。在预训练期间,进行了掩码特征向量序列(FVS)重建的辅助任务,以增强表示。实验结果表明,所提出的框架相对于其他最先进的方法具有优越性能。