从视频学习时空一致性以提高语义分割
提出一种新的框架以实现视频语义分割和光流估计的联合训练,通过联合训练利用视频中已标记和未标记的帧,使视频语义分割和光流估计更加稳健并在相应任务中表现优异。
Nov, 2019
本文提出了一种有效的语义视频分割方法,借鉴于现有方法中将结果传播到相邻帧或使用其他帧提取帧表示时可能会导致不准确的结果或不平衡的延迟问题,我们在推理过程中采用逐帧方式处理,其中显式考虑帧与帧之间的时间一致性,并将此一致性嵌入到语义分割网络中。通过新的知识蒸馏方法,我们成功地缩小了紧凑型模型与大型模型之间的性能差距。我们的结果在Cityscapes和Camvid等流行基准测试中优于先前的基于关键帧的方法,并提高了与独立训练每帧的对应基线的时间一致性。
Feb, 2020
本文提出了一种基于感知一致性的视频语义分割方法,既可以捕捉时序一致性,又可以捕捉像素级的正确性。利用感知一致性方法对视频中连续帧的分割图进行一致性度量,可以更准确地评估视频分割的时序一致性,并且可以通过将感知一致性与分割置信度相结合,更有信心地预测未标记测试帧上的分割准确性。此外,所提出的方法还可以作为模型训练的一种正则化约束,以实现更加时序一致的视频分割同时保持准确度。
Oct, 2021
提出了一种有效的自监督学习(SSL)框架,通过探索大量的数据增强和洗牌方法来提高模型的泛化能力,并引入一个简单的时间模型来验证镜头特征的质量,从而实现场景一致性。该方法在Video Scene Segmentation任务上取得了最先进的性能,并提出了更公平合理的评估方法。
May, 2022
本文提出了一种基于时序伪监督的方法(TPS)来进行视频语义分割,该方法可以在适应有标签的源域到无标签的目标域时,通过跨视频帧产生伪标签的方式缓解数据标注的限制,从而提升了处理多样性目标数据时的准确率。实验证明,TPS比现有技术更稳定,更简单易实现,且具有更高的视频语义分割准确率。
Jul, 2022
本文针对自主行驶场景下的语义分割问题进行了调研,从模型开发、RGB-D数据集集成、时域信息模型三个方面讨论了目前最相关和最新的深度学习方法,旨在为读者提供关于这一激动人心和具有挑战性的研究领域的最新进展。
Mar, 2023
本研究提出了一种基于运动状态对齐的视频语义分割方法,该方法解决了信息不一致性和计算成本等难点,实现了像素级状态一致性和区域级时间一致性,能够以低计算成本高精度地分割出视频语义区域,并在Cityscapes和CamVid数据集上验证了其优越性。
Apr, 2023
使用深度信息和无监督学习方法改进语义分割,通过对特征和深度地图之间的关联进行空间相关性学习以提高性能,并在多个基准数据集上展示了显著的改进。
Sep, 2023
通过引入双向多级时空融合模块和类别感知的时空特征对齐模块,提出了一种新颖的DA-STC方法来解决视频语义分割任务中的领域自适应问题,并在多个具有挑战性的基准测试上取得了最先进的mIOUs。
Nov, 2023
本研究针对现有视频分割模型在处理小规模或类别不平衡数据集时产生的不一致性问题,提出了一种新的训练策略——掩蔽视频一致性(MVC)。该方法通过随机掩蔽图像片段,增强了时空特征的聚合能力,并引入对象掩蔽注意力(OMA)优化交叉注意力机制,显著提高了模型在多个数据集上的性能。
Aug, 2024