Sep, 2023

高效长短时注意力网络用于无监督视频目标分割

TL;DR无监督视频对象分割(VOS)旨在识别视频中主要前景对象的轮廓,但以往的方法没有充分利用时空上下文,并且无法在实时中处理这一具有挑战性的任务。因此,本文提出了一种高效的长短时序注意力网络(LSTA),从整体视角解决了无监督VOS任务。该网络由长时序记忆和短时序注意力两个主要模块组成,前者通过编码外观模式来捕获过去帧和当前帧的长期全局像素关系,后者通过编码动态模式来揭示附近帧和当前帧的短期局部像素关系。为了加快推理速度,采用了高效投影和基于局部性的滑动窗口,分别实现了两个轻量级模块的几乎线性时间复杂度。在几个基准测试中进行了大量实证研究,证明了所提方法具有高效的有希望的性能。