通过深度信息引导特征蒸馏和采样的无监督语义分割
提出了一种半监督语义分割的框架,采用自监督单目深度估计和利用场景几何形状强数据扩增的方式,结合深度特征差异和难度级别,通过学生 - 教师框架选择最有用的样本进行语义分割的注释,实现了在 Cityscapes 数据集上半监督语义分割的最好结果。
Dec, 2020
通过使用 RGB 图像提供场景的更密集表示,我们提出了一种基于图像引导网络(IGNet)的方法,该方法借鉴了通过域适应合成训练的 2D 语义分割网络中的高级特征信息,进一步利用了一种称为 FOVMix 的新型混合策略以解决两个传感器之间的水平视场不匹配问题,以增强图像引导效果,并在 ScribbleKITTI 上实现了弱监督 LiDAR 语义分割的最先进结果,与全监督训练相比,仅使用 8% 的标记点,无需额外的标注负担或推理中的计算 / 内存成本。此外,我们还展示了我们的方法在半监督训练中的有效性,IGNet 在 ScribbleKITTI 和 SemanticKITTI 上均取得了最先进的结果。
Nov, 2023
STEGO 是一种新的自监督特征提取框架,通过使用对比损失函数来加强特征聚类的紧凑性,并在 CocoStuff 和 Cityscapes 语义分割挑战中显著优于其他算法。
Mar, 2022
本文提出了一种半监督和领域自适应的语义分割框架,它利用自监督单目深度估计(SDE)来增强。该框架采用 SDE 作为辅助任务,通过选择最有用的样本、实现数据增强、转移 SDE 学习到的特征以及利用 Cross-Domain DepthMix 和 Match Geometry Sampling 来利用额外的标记合成数据与真实数据对齐,同时在 Cityscapes 数据集上进行了验证,并获得了半监督语义分割和半监督领域适应的最先进结果。
Aug, 2021
本文研究自监督学习中如何直接运用语义结构来指导几何表示的学习,提出了一种新的基于预训练语义分割网络和像素自适应卷积的架构,并使用两阶段训练过程来克服动态对象上的常见语义偏差。结果表明该方法在所有像素、细节和语义类别上都优于现有方法,实现了自监督单目深度预测的最新水平。
Feb, 2020
本文提出了一种基于 HRNet 网络的深度估计网络 ——DIFFNet,它能在下采样和上采样过程中利用语义信息,并通过特征融合和注意力机制提高算法表现,实验结果表明,该方法在 KITTI 基准数据集上优于当前最先进的单目深度估计方法,并具有处理更高分辨率数据的潜力。我们还通过建立具有挑战性案例的测试集提出了额外的评估策略。
Oct, 2021
本文提出了一种基于深度学习网络、自我监督和知识蒸馏的训练协议,能够同时学习单目摄像机所需的几何、运动和语义信息,从而实现对整个场景的全面识别。实验结果表明,该框架不仅在单目深度估计、光流和运动分割等任务中取得了最先进的性能表现,并且能够在高性能 GPU 和低功耗嵌入式平台上实现高效的应用。
Mar, 2020
本文提出了一种基于无监督域自适应的语义分割方法,通过核密度估计将目标数据分布匹配到源数据的特征空间中,从而减轻对目标数据进行标注的需求,提高了多地点前列腺 MRI 和组织病理学图像分割结果的可比性和优越性。
May, 2023
本文提出一种基于知识蒸馏的语义分割方法,通过引入 Inter-class Distance Distillation (IDD) 模块来转移特征空间中的跨类距离,同时利用位置信息蒸馏模块来提高学生网络的位置编码能力,实验结果表明,该方法可以大幅度提高语义分割模型的准确性,达到 state-of-the-art 的性能水平。
May, 2022
利用生成网络的训练策略,我们提出了一种在无监督单目深度估计中具有鲁棒性的扩散模型,并采用分层特征引导的去噪模块来丰富模型的学习能力,进一步探索了图像重投影中的隐式深度,并设计了一种隐式深度一致性损失,从而提高了模型的性能和深度在视频序列中的尺度一致性。实验证明,我们的方法在生成网络模型中脱颖而出,并且具有显著的鲁棒性。
Jun, 2024