从视频学习时空一致性以提高语义分割
本研究提出了一种新颖的视频实例分割嵌入式方法,该方法通过融合外观、运动和几何等多种线索来学习时空嵌入,其中,运动由 3D 因果卷积网络模拟,几何由单目自监督深度损失模拟。在这种嵌入空间中,同一实例的视频像素被聚类在一起,同时与其他实例分离,从而自然地跟踪实例而不需要任何复杂的后处理,而且实时性能良好。研究结果表明,该模型在 KITTI 多物体和跟踪数据集上可以准确地跟踪和分割实例,即使存在遮挡和遗漏检测等问题,也能推进同类算法的发展。
Dec, 2019
在手术视频中进行语义分割在术中导航、术后分析和手术教育方面有应用价值。我们提出了一种用于建模视频时间关系的新架构,通过改善帧之间的时间一致性以提高视频语义分割精度,并在两个数据集上验证了其性能提升。
Jun, 2023
本文介绍了一种通过自监督学习获得单目序列深度和姿态的方法,该方法不需要基础数据的支持,增加了更强的几何量和时间图像序列内部一致性的约束条件,能够显著提高单目图像序列深度和相对姿态估计的性能。
Sep, 2019
本文提出了一种端到端可训练的深度学习模型,利用时间信息来利用易于获取的未标记数据,从而解决了视频分割中标签稀缺的问题。实验结果表明,该模型能够显著优于基线方法和逐帧图像分割。
Aug, 2019
提出了一种半监督语义分割的框架,采用自监督单目深度估计和利用场景几何形状强数据扩增的方式,结合深度特征差异和难度级别,通过学生 - 教师框架选择最有用的样本进行语义分割的注释,实现了在 Cityscapes 数据集上半监督语义分割的最好结果。
Dec, 2020
本文针对自主行驶场景下的语义分割问题进行了调研,从模型开发、RGB-D 数据集集成、时域信息模型三个方面讨论了目前最相关和最新的深度学习方法,旨在为读者提供关于这一激动人心和具有挑战性的研究领域的最新进展。
Mar, 2023
本文提出了一种基于多任务学习的方法,能够联合进行几何和语义场景理解,包括单眼深度估计、深度补全和语义场景分割,通过一个时间上连续受限的循环网络,利用一系列复杂的跳跃连接、对抗性训练和顺序帧重复的时间限制同时产生一致的深度和语义类标签,大量实验评估表明相比其他当代最先进的技术,本方法的有效性。
Mar, 2019
本文介绍了一种基于几何一致性损失和自发现遮罩的深度估计和自我运动估计模型,模型能够处理运动物体和目标的遮挡问题并保证不同样本间的比例一致性。从实验结果来看,我们提出的深度估计模型在 KITTI 数据集上性能最好,并且我们提出的自动驾驶路线规划模型相对于之前的模型在预测全局一致的相机轨迹上有着很大的优势。
Aug, 2019
提出了一种新颖的无监督学习深度和自我运动的方法,它主要基于对场景的推断 3D 几何形状进行对齐,并与基于光度学营养和有效性掩模的 2D 损失相结合,最终得出在 KITTI 数据集上的优越结果。
Feb, 2018