May, 2024

视频总结的多粒度解释集成框架

TL;DR本论文提出了一个综合的视频摘要的多粒度解释框架,通过整合在片段级别和更细粒度的视觉对象级别产生解释的方法,通过使用模型无关的基于扰动的方法来在片段级解释视频摘要结果,并引入了将视频全景分割结果与基于扰动的解释方法相结合的新方法来产生对象级解释。我们对该框架进行了性能评估,使用一种最先进的摘要方法和两个用于基准测试视频摘要的数据集。定量和定性评估的结果表明,我们的框架能够发现视频摘要中最具影响力的片段和视觉对象,并提供了关于摘要过程输出的全面的基于视觉的解释。