ECCVDec, 2021

SeqFormer: 序列 Transformer 用于视频实例分割

TL;DR本文介绍了 SeqFormer,一种基于视频实例分割的模型,通过注意力机制捕捉视频帧之间的关系,定位每帧的实例并聚合时间信息,从而实现自然的实例跟踪并预测动态遮罩序列,结合 Swin Transformer 可获得更高的 AP,是视频实例分割领域的强基线模型。