视频场景分割的场景一致性表示学习
本文提出了一种有效的语义视频分割方法,借鉴于现有方法中将结果传播到相邻帧或使用其他帧提取帧表示时可能会导致不准确的结果或不平衡的延迟问题,我们在推理过程中采用逐帧方式处理,其中显式考虑帧与帧之间的时间一致性,并将此一致性嵌入到语义分割网络中。通过新的知识蒸馏方法,我们成功地缩小了紧凑型模型与大型模型之间的性能差距。我们的结果在Cityscapes和Camvid等流行基准测试中优于先前的基于关键帧的方法,并提高了与独立训练每帧的对应基线的时间一致性。
Feb, 2020
为了对电影进行语义理解,提出了一种局部到全局的场景分割框架,其中包含来自三个级别的多模态信息。通过预先训练MovieScenes数据集,该框架能够从长片的分层时间结构中提取复杂语义,提供自上而下的场景分割指导,并在实验中取得了高精度的场景分割表现。
Apr, 2020
本文提出了一种空间-时间语义一致性方法,通过采用空间-时间一致损失和伪标记策略来捕捉类别独有的上下文信息,从而改善视频场景解析的一致性和准确性,该方法在 VSPW 挑战赛中获得了第一名,开发(测试部分1)和测试集上的mIoU分数上分别达到了59.84%和58.85%。
Sep, 2021
该论文提出了一种基于transformer的图像分割方法,利用一个新的实例感知的时间融合方法来处理视频序列中物体实例的时序关系,通过建立实例代码、CNN特征图之间的混合注意力机制来实现跨帧的一致性建模,使得模型能够直接检测和跟踪视频序列中的物体实例。
Dec, 2021
本文提出了一种基于无监督自学习框架的视频场景分割算法,采用三种新颖的边界感知预训练任务(SSM, CGM, PP),重点在于设计有效的预训练任务,通过广泛的实验结果表明,预训练和转移环境表示对于改善视频场景分割性能至关重要,并实现了 MovieNet-SSeg 基准测试的最新最好成绩。
Jan, 2022
本文提出了一种Hierarchical Consistency(HiCo)学习框架,该框架利用未剪辑视频中更为丰富的信息来学习一种层次化的一致性,通过对视觉一致性及主题一致性进行学习,相对于传统对比学习而言,HiCo框架在生成未剪辑视频的表征上表现更强,并且应用于剪辑视频的情况时也能提高表征质量。
Apr, 2022
本文提出了一种基于时序伪监督的方法(TPS)来进行视频语义分割,该方法可以在适应有标签的源域到无标签的目标域时,通过跨视频帧产生伪标签的方式缓解数据标注的限制,从而提升了处理多样性目标数据时的准确率。实验证明,TPS比现有技术更稳定,更简单易实现,且具有更高的视频语义分割准确率。
Jul, 2022
本研究提出了一种名为时间调谐的方法,通过在无标签视频上使用一种新颖的自监督时序对齐聚类损失函数,从而提高视频和图像的表示质量,进而改善了现有最先进方法在无监督语义分割方面的效果。我们相信这种方法为进一步利用丰富的视频资源进行自监督学习的规模化铺平了道路。
Aug, 2023