本文提出了一种利用未标记数据改进的视频语义分割训练模型,该模型结合了卷积架构和时空转换器循环层,并能够通过光流适应性地门控使时间上的标记信息传递,模型通过未标记帧来改善视频分割准确性,并在基于多个深度架构中进行了广泛实验。
Dec, 2016
在手术视频中进行语义分割在术中导航、术后分析和手术教育方面有应用价值。我们提出了一种用于建模视频时间关系的新架构,通过改善帧之间的时间一致性以提高视频语义分割精度,并在两个数据集上验证了其性能提升。
Jun, 2023
本文提出了一种有效的语义视频分割方法,借鉴于现有方法中将结果传播到相邻帧或使用其他帧提取帧表示时可能会导致不准确的结果或不平衡的延迟问题,我们在推理过程中采用逐帧方式处理,其中显式考虑帧与帧之间的时间一致性,并将此一致性嵌入到语义分割网络中。通过新的知识蒸馏方法,我们成功地缩小了紧凑型模型与大型模型之间的性能差距。我们的结果在 Cityscapes 和 Camvid 等流行基准测试中优于先前的基于关键帧的方法,并提高了与独立训练每帧的对应基线的时间一致性。
Feb, 2020
该研究旨在探讨基于无监督学习的视频数据特征学习,利用自编码器技术和慢特征学习,提出一种更为时空连贯、语义更为相似的度量标准。
Apr, 2015
本文提出一种学习视频帧临时嵌入的方法,以便进行复杂的视频分析,利用互联网上大量的未标记的视频数据,通过将帧与其所处的时间上下文相关联来学习视频帧的时间嵌入,并通过使用多分辨率采样和困难负样本的数据增广来显著提高所学嵌入的质量,证明嵌入可以提高多个视频任务的性能,例如在无约束的互联网视频中检索、分类和时间顺序恢复。
May, 2015
本文提出了一种自我监督的、基于认知心理的预测学习框架,通过自适应学习来减少循环神经网络中灾难性遗忘的影响,在三个公共数据集上进行了广泛的实验,表明所提出的方法能够优于弱监督和其他非监督学习方法最多达 24%,并具有完全监督方法相媲美的性能。同时,该方法还能够学习高度区分特征,进而提高动作识别的表现。
Nov, 2018
本研究提出了一种视频语义分割框架,该框架利用特征传播模块和自适应调度器相结合的方法,通过时间间隔自适应地融合特征并根据准确性预测动态分配计算量,以实现低延迟和高语义分割质量。实验结果表明,在与现有模型的比较中,该模型在 Cityscapes 和 CamVid 这两个数据集上获得了竞争性的性能,并将延迟从 360 ms 降低到 119 ms。
Apr, 2018
本文提出了一种新的模型,使用 ConvLSTM 编码观察到的视频帧的时空信息来预测未观察到的未来帧的语义分割图,并扩展了双向 ConvLSTM 来捕获双向的时间信息,该方法在基准数据集上优于其他最先进的方法,为实时决策制定提供了可靠的解决方案。
Jul, 2018
利用无监督学习深度、自我运动和相机内在参数,通过在视频帧之间施加三维几何和时间一致性,从而提高单图像语义分割性能。
Apr, 2020
本文提出了一种基于全卷积神经网络和门控循环体系结构的循环全卷积网络,利用视频中的时间信息进行在线语义分割, 大幅提高了分割的准确性,可以在二进制和语义视频分割任务中应用。
Nov, 2016