CVPRMay, 2024

CSTA:基于卷积神经网络的时空注意力视频摘要

TL;DR提出了一种基于 CNN 的时空注意力(CSTA)方法,将视频的每个帧的特征堆叠起来形成类似图像的帧表示,并应用 2D CNN 对这些帧特征进行处理,实现对关键属性的学习和视觉重要性的捕捉,在 SumMe 和 TVSum 等数据集上实验证明了该方法在减少计算量的同时取得了最先进的性能。