通过知识蒸馏增强单视景物补全的自监督学习

Apr, 2024

通过知识蒸馏增强单视景物补全的自监督学习

Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation

Keonhee Han, Dominik Muhle, Felix Wimbauer, Daniel Cremers

TL;DR通过融合多个图像的密度场，我们提出了一种更准确的单视图场景重建方法，特别适用于遮挡区域。

Abstract

Inferring scene geometry from images via structure from motion is a long-standing and fundamental problem in computer vision. While classical approaches and, more recently, depth map predictions only focus on the

scene geometry structure from motion neural radiance fields implicit representations scene completion

发现论文，激发创造

视频场景全面理解的精简语义

本文提出了一种基于深度学习网络、自我监督和知识蒸馏的训练协议，能够同时学习单目摄像机所需的几何、运动和语义信息，从而实现对整个场景的全面识别。实验结果表明，该框架不仅在单目深度估计、光流和运动分割等任务中取得了最先进的性能表现，并且能够在高性能 GPU 和低功耗嵌入式平台上实现高效的应用。

Mar, 2020

利用多视角自监督学习的单张图片户外反渲染

本文介绍了如何使用完全卷积神经网络从单个未受控制的图像中恢复场景的形状，反射和照明。通过在包含丰富照明变化的图像上执行离线多视图立体（MVS）和学习统计自然照明先验，我们可以获得额外的监督，并在反渲染和其他基准测试中评估其性能。

Feb, 2021

结构化知识蒸馏方法实现高效紧凑的多视角三维检测

本论文提出了一种基于结构化知识蒸馏的框架，旨在提高现代视觉仅 BEV 检测模型的效率，并在 nuScenes 基准测试上表现出显著的优越性，平均改善 2.16mAP 和 2.27NDS。

Nov, 2022

幕后之王：用密度场进行单视角重建

该研究提出使用隐式密度场而非神经辐射场作为图像的几何场景表示，通过自监督训练神经网络能够在单个前向传递中预测该场景表示，并且可以在深度预测和新视角合成方面进行体积渲染。实验表明，该方法能够预测出输入图像中遮挡区域的有意义几何信息。

Jan, 2023

CompNVS：具备场景补全的新视角综合技术

本研究提出了一种可扩展的框架，用于从具有大部分不完整场景覆盖的 RGB-D 图像中合成新视图。通过一种稀疏网格神经场景表示学习得到的场景分布对未观察到的场景部分进行完成。最终，本方法的图形输出在未观察到的场景部分方面优于现有技术。

Jul, 2022

基于三维感知和几何一致性引导的自监督深度补全

本研究提出了一种基于 3D 感知特征和多视角几何一致性的高精度自监督深度完成方法，通过构建 3D 感知空间传播算法和引入多视角几何约束，实现了无监督下的高精度深度完成，并在 NYU-Depthv2 和 VOID 等评测数据集上取得与有监督方法相媲美的性能。

Dec, 2023

了解邻居：通过空间视觉 - 语言推理提升单视图重建

通过综合语义和空间上下文推断每个点的密度，我们的 KYN 方法改进了三维形状恢复并在场景和物体重建方面取得了最先进的结果。

Apr, 2024

单目相机全局一致深度动态场景新视角合成

本文提出了一种新的方法，可以从动态场景的一组图像中合成任意视角和时间的图像，通过单视图深度（DSV）和多视图立体深度（DMV）的结合，重新估计视角和时间下的一致性和深度信息，从而精确的合成真实感极强的虚拟视图。

Apr, 2020

自监督单目场景流估计

本文提出的单目场景流（Scene Flow）估计方法基于一个卷积神经网络（CNN），通过充分考虑光流代价体积，成功估算出深度和三维运动。我们采用了自监督学习方法，利用三维损失函数和遮挡推理来提高估计精度。实验结果表明，该方法在单目场景流估计领域取得了最佳性能，同时在光流和单目深度估计子任务上也获得了很好的结果。

Apr, 2020

VolumeFusion：基于深度学习的三维场景重建深度融合技术

本文介绍了一种利用深度神经网络复制传统的 local depth maps calculation 和 global depth maps fusion 两步骤框架，以改善对 3D 场景重建精度和可解释性的计算机视觉任务方法。此外，作者还提出了一种称为 PosedConv 的旋转不变的 3D 卷积核，用于提高从非常不同视角获取的图像之间的匹配效率。作者在 ScanNet 数据集上进行了大量实验证明提出的方法在深度神经网络和传统计算机视觉技术中具有竞争力。

Aug, 2021