无源域适应方法在 RGB-D 语义分割中的应用:基于 Vision Transformers
本文介绍了一种基于自监督深度估计来缩小源域和目标域之间领域漂移的方法,该方法旨在增强目标语义预测,并使用深度预测的差异来明确像素级适应难度,进而修正目标语义分割伪标签。在 SYNTHIA-to-Cityscapes 和 GTA-to-Cityscapes 基准任务上,我们分别实现了 55.0%和 56.6%的新的最先进性能。
Apr, 2021
该论文介绍了两种方法来利用多通道输入和无监督域自适应算法来提高机器人对真实图片的语义分割结果,其中一种是基于深度图像的融合方法,另一种是基于深度图像的多任务学习方法,并创建了相应的基准测试。
Dec, 2018
在隐私导向的无源情况下,我们提出了一种使用视觉转换器进行领域适应的方法,通过构建领域可辨识输入(DRI),利用查询提取特定领域信息,并在统一模型中实现领域特异性和任务特异性的解耦和学习,实现了在单源、多源和多目标基准上的最先进性能。
Aug, 2023
本文提出一种自监督学习的新训练策略,通过图像转换网络实现在合成和真实领域之间的域不变表示学习,从而提高单张图像深度估计在现实世界中的泛化能力。实验结果表明,该方法在 KITTI 和 Make3D 数据集上均优于现有技术。
Jun, 2021
本研究提出一个无监督领域适应策略 --AdaDepth,通过对抗式学习和对齐源域和目标域表征的显式强制内容一致性,克服了使用合成数据集时可能出现的领域适应问题,在单目深度估计任务中表现出与其他方法具有竞争力的性能并在半监督设置中实现了最先进的结果。
Mar, 2018
本研究通过整合 RGB 图像与深度信息进行图像描述,提出了一种基于 Transformer 编码 - 解码框架生成 3D 场景多句描述的方法,并在 NYU-v2 和斯坦福图像段落描述数据集上进行了实验,结果表明深度信息可以提高图像描述的效果。
Jul, 2023
本文介绍了一种无监督领域适应技术,它仅依赖于图像对,并利用经典的立体算法生成视差测量,旨在 fine-tune 立体和单眼深度架构,通过一种新颖的置信度引导损失函数来处理以测量出视差值,并且该方法不需要基础真实标签,实验证明其效果优于其他同类无监督损失函数。
Sep, 2019
本文提出了一种自适应景观识别方法,该方法使用 RGB 和深度图像之间的自监督转换,以解决多模态数据集之间的领域转移问题,并证明其在不同相机采集的数据之间具有很强的泛化能力。
Mar, 2021
本文介绍了一种数据集不变的半监督策略来解决语义信息缺乏的问题,并提出了深度语义共生模块,利用共生转换器实现了通过局部和全局上下文间的信息交流来实现全面的互动意识。此外,还引入了一种新的增强方法 NearFarMix,用于应对过拟合,并通过策略性地合并两幅图像的区域来产生多样性和结构一致的样本以增强控制能力。在 NYU-Depth-V2 和 KITTI 数据集上进行的大量实验证明了我们提出的技术在室内和室外环境中的优越性。
Aug, 2023
该论文探讨了解决语义分割领域中的域适应问题,提出了基于生成模型和像素级域对齐的方法,通过实验表明其在解决合成数据到真实场景的语义分割问题上的优越性。
Sep, 2020