半监督深度特征重建视差估计

CVPRJun, 2021

Semi-Supervised Disparity Estimation with Deep Feature Reconstruction

Julia Guerrero-Viu, Sergio Izquierdo, Philipp Schröppel, Thomas Brox

TL;DR通过联合使用带标签的合成数据和无标签的实际数据的有监督训练和自监督训练，提出了半监督的流水线，成功地将 DispNet 适应到实际环境中，并分析了深层特征重建对视差估计的影响。

Abstract

Despite the success of deep learning in disparity estimation, the domain generalization gap remains an issue. We propose a semi-supervised

deep learning disparity estimation domain generalization semi-supervised photometric loss

发现论文，激发创造

DeFeat-Net: 并行无监督表示学习的通用单目深度

我们提出了 DeFeat-Net（深度和特征网络），一种同时学习跨领域密集特征表示和基于扭曲特征一致性的稳健深度估计框架的方法。通过同时学习特征、深度和运动，我们的技术能够推广到具有挑战性的领域，并能够在更具挑战性的序列中优于当前最先进技术约 10％的所有误差度量。

Mar, 2020

借助自监督深度估计改进半监督和领域自适应语义分割

本文提出了一种半监督和领域自适应的语义分割框架，它利用自监督单目深度估计（SDE）来增强。该框架采用 SDE 作为辅助任务，通过选择最有用的样本、实现数据增强、转移 SDE 学习到的特征以及利用 Cross-Domain DepthMix 和 Match Geometry Sampling 来利用额外的标记合成数据与真实数据对齐，同时在 Cityscapes 数据集上进行了验证，并获得了半监督语义分割和半监督领域适应的最先进结果。

Aug, 2021

通过新视角合成和特征分离来进行领域自适应全脸注视估计

本研究提出了一个训练数据合成和注视估计模型的有效训练流程，用于无监督域自适应，包括使用单幅图像 3D 重建来扩展源域中头部姿势的范围，提出了一个自编码器网络来分离与注视相关的特征，并引入背景增强一致性损失来利用合成源域的特点，在多个目标域上进一步提高了性能。

May, 2023

跨域自监督多任务特征学习：使用合成图像

本文提出了一种多任务深度网络学习通用高级视觉表示的方法，并通过对人工制成的图像进行训练来克服真实与合成数据之间的领域差异，模型考虑同步从合成 RGB 图像中预测其表面法向、深度和实例轮廓，并最小化真实和合成数据之间特征空间的差异，在广泛实验的基础上，表明我们的网络相比单任务基线学习到更具有可转移性的表示，使得在 PASCAL VOC 2007 分类和 2012 检测上能够产生最先进的迁移学习结果。

Nov, 2017

对单目深度估计采用对抗性训练的益处

本研究探讨了将对抗性训练应用于单目深度估计任务中的益处，并扩展了自监督网络以成为生成对抗网络（GAN）来实现全局一致性。通过对不同像素级重构损失结合 Vanilla GAN， LSGAN 和 Wasserstein GAN 等进行广泛的实验评估，得出当重构损失不太受限制时，对抗训练是有益的结论，并证明在使用批量归一化时，无需使用 GAN 的非对抗性训练法表现优异。因此，我们采用批量规范化和不同的输出比例，获得了最新的单目深度估计结果。

Oct, 2019

自监督深度估计中的域自适应语义分割

本文介绍了一种基于自监督深度估计来缩小源域和目标域之间领域漂移的方法，该方法旨在增强目标语义预测，并使用深度预测的差异来明确像素级适应难度，进而修正目标语义分割伪标签。在 SYNTHIA-to-Cityscapes 和 GTA-to-Cityscapes 基准任务上，我们分别实现了 55.0％和 56.6％的新的最先进性能。

Apr, 2021

自监督学习领域不变特征用于深度估计

本文提出一种自监督学习的新训练策略，通过图像转换网络实现在合成和真实领域之间的域不变表示学习，从而提高单张图像深度估计在现实世界中的泛化能力。实验结果表明，该方法在 KITTI 和 Make3D 数据集上均优于现有技术。

Jun, 2021

半监督对抗式单目深度估计

本文提出了一种半监督对抗学习框架来解决当仅有有限数量的训练图像 - 深度对时，单目深度估计的问题，并在 NYUD v2 数据集上改进了大部分最先进的模型。

Aug, 2019

Deep CG2Real: 通过图像分解进行合成到真实图像的转换

提出一种利用半监督方法，在图像的着色和反照率层上操作，训练半监督网络用于图片合成，该方法可以有效提高 OpenGL 渲染等低质量合成图像的视觉逼真度。该方法通过两个阶段的管道来实现，即首先以物理学渲染为目标以有监督的方式预测准确的着色，然后再采用改进的 CycleGAN 网络进一步提高纹理和着色的逼真度。在 SUNCG 室内场景数据集上进行的广泛评估表明，与其他最先进的方法相比，我们的方法可以产生更逼真的图像。此外，我们所生成的 “真实” 图像训练出的网络比领域适应方法预测出更精确的深度和法线，这表明提高图像的视觉逼真度可以比强加任务特定的损失效果更良好。

Mar, 2020

DispSegNet: 借助语义实现从立体影像端到端的视差估计学习

本文提出了一种用于改善深度估计的 CNN 体系结构，该体系结合语义分割任务。所提出的模型是使用无监督方法进行训练的，并采用双目摄像系统的图像对。实验表明，使用语义分割的嵌入可以提高深度估计的性能

Sep, 2018