Sep, 2023

视频语义分割的时序感知分层掩码分类

TL;DR我们提出了一个用于视频语义分割(VSS)的新解决方案 THE-Mask,首次引入了时态感知的分层物体查询,并利用简单的两轮匹配机制,在训练过程中以最小代价匹配更多的查询对象,同时在推理过程中无需任何额外代价。为了支持多对一的分配,我们设计了一种分层损失来训练带有相应主次层级关系的查询。此外,为了有效捕捉帧间的时态信息,我们提出了一个时态聚合解码器,以无缝融入 VSS 的掩码分类模型,利用时态敏感的多级查询方法,在最新的具有挑战性的 VSS 基准 VSPW 上取得了最先进的性能。