Apr, 2024

SalFoM: 动态视频基础模型的显著性预测

TL;DR使用视频基础模型,我们引入了 SalFoM,一种新颖的编码器 - 解码器视频 Transformer 架构,通过特征提取器 UnMasked Teacher(UMT)和包含局部感知的时空 Transformer 的异构解码器,从多个角度融合局部和全局时空信息以生成最终的显著性图,并在 DHF1K、Hollywood-2 和 UCF-Sports 这些具有挑战性的 VSP 基准数据集上进行定性和定量实验证明了我们提出的模型相对于先进方法的优越性。