利用时间性进行半监督视频分割
本文提出了一种基于全卷积神经网络和门控循环体系结构的循环全卷积网络,利用视频中的时间信息进行在线语义分割, 大幅提高了分割的准确性,可以在二进制和语义视频分割任务中应用。
Nov, 2016
本文提出了一种利用未标记数据改进的视频语义分割训练模型,该模型结合了卷积架构和时空转换器循环层,并能够通过光流适应性地门控使时间上的标记信息传递,模型通过未标记帧来改善视频分割准确性,并在基于多个深度架构中进行了广泛实验。
Dec, 2016
本研究提出了一种视频语义分割框架,该框架利用特征传播模块和自适应调度器相结合的方法,通过时间间隔自适应地融合特征并根据准确性预测动态分配计算量,以实现低延迟和高语义分割质量。实验结果表明,在与现有模型的比较中,该模型在Cityscapes和CamVid这两个数据集上获得了竞争性的性能,并将延迟从360 ms降低到119 ms。
Apr, 2018
本文提出了一种有效的语义视频分割方法,借鉴于现有方法中将结果传播到相邻帧或使用其他帧提取帧表示时可能会导致不准确的结果或不平衡的延迟问题,我们在推理过程中采用逐帧方式处理,其中显式考虑帧与帧之间的时间一致性,并将此一致性嵌入到语义分割网络中。通过新的知识蒸馏方法,我们成功地缩小了紧凑型模型与大型模型之间的性能差距。我们的结果在Cityscapes和Camvid等流行基准测试中优于先前的基于关键帧的方法,并提高了与独立训练每帧的对应基线的时间一致性。
Feb, 2020
该研究提出了一种名为TDNet的时态分布网络,旨在实现快速准确的视频语义分割,该网络使用深度卷积神经网络从视频中提取特征,并通过逐帧分布的方式,引入了新颖的注意力传播模块和分组知识蒸馏损失函数,从而达到了较高的分割准确率和更低的延迟。
Apr, 2020
通过在未标注的视频序列和额外图像上使用半监督学习,结合人工标注标签和伪标签数据进行训练,该简单而有效的迭代半监督学习方法在城市街景分割任务上取得了67.8%的PQ,42.6%的AP 和85.2%的mIOU的最优成果,并在核心计算机视觉任务上实现了超越最先进水平的重要进展。
May, 2020
本文提出了一种新颖的神经网络模块,可以将现有的单帧语义分割模型转化为视频语义分割流水线,并将过去帧中的语义信息聚合到内存模块中,并通过关注机制来对其进行访问。通过将这些提示与当前帧的编码进行融合,可以改善Cityscapes数据集上的分割性能,并只需增加1.5ms的推理时间。
Jan, 2021
本文提出了一种基于时序伪监督的方法(TPS)来进行视频语义分割,该方法可以在适应有标签的源域到无标签的目标域时,通过跨视频帧产生伪标签的方式缓解数据标注的限制,从而提升了处理多样性目标数据时的准确率。实验证明,TPS比现有技术更稳定,更简单易实现,且具有更高的视频语义分割准确率。
Jul, 2022
本研究提出了一种名为时间调谐的方法,通过在无标签视频上使用一种新颖的自监督时序对齐聚类损失函数,从而提高视频和图像的表示质量,进而改善了现有最先进方法在无监督语义分割方面的效果。我们相信这种方法为进一步利用丰富的视频资源进行自监督学习的规模化铺平了道路。
Aug, 2023