Jul, 2022

视频蒙版变换器:用于高质量视频实例分割

TL;DR本文提出了一种名为Video Mask Transfiner(VMT)的方法,该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征,并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化方法,并通过HQ-YTVIS数据集对本文提出的方法进行了实验验证。实验结果表明,该方法可以有效地分割复杂和动态的物体,捕捉精细的细节。