视图合成的自监督学习

Apr, 2023

Self-supervised Learning by View Synthesis

Shaoteng Liu, Xiangyu Zhang, Tao Hu, Jiaya Jia

TL;DR本文介绍了一种基于视觉转换器的自监督学习框架 - 视图合成自动编码器，其使用跨注意力块实现跨角度合成视图，并学习了空间不变表示，提高了下游任务的性能。

Abstract

We present view-synthesis autoencoders (VSA) in this paper, which is a self-supervised learning framework designed for vision transformers

view-synthesis autoencoders self-supervised learning vision transformers cross-attention blocks spatial invariant representation

发现论文，激发创造

从单张图像中无监督生成新视角

本论文提出了一种基于生成对抗网络的条件生成模型，通过无监督学习实现在没有多视角、3D 和姿态监督的情况下进行从单一图像到新视角的合成。

Feb, 2021

AUTO3D: 通过无监督学习的变分视角和全局 3D 表示进行新颖视图综合

本论文主要探讨基于学习的单个或有限 2D 图像的新视角合成，提出了一个端到端可训练的条件变分框架，通过空间相关模块从外观描述图像中提取全局的 3D 表示形状、纹理和以观察者为中心的坐标系原点等，实现无需显式 3D 重建即可隐含 3D 理解。

Jul, 2020

自监督可见性学习用于新视角合成

本文提出了一种端到端的新视角合成框架，包括构建目标视角下的体积以及设计源视角的可见性估计模块和软射线投影机制，最终在端到端的自监督训练方式下，相较于现有方法提高了新视角的合成质量。

Mar, 2021

ViewNet: 无监督条件生成的视角估计

介绍了一种基于自监督学习的方法，使用透视空间变换器来实现高效的无监督视角学习，从而实现在三维世界中理解物体的探索。

Dec, 2022

MV2MAE：多视角视频掩码自编码器

从多视角捕获的视频可以帮助感知世界的 3D 结构，并对计算机视觉任务，如动作识别、跟踪等产生影响。本文介绍了一种从同步多视角视频中进行自监督学习的方法，通过交叉视角重构任务向模型注入几何信息。我们的方法基于掩码自编码器（MAE）框架，在同视角解码器的基础上，引入了一个独立的交叉视角解码器，利用交叉注意机制从源视角视频重构目标视角视频，以获得对视角变化具有鲁棒性的表示。针对视频，静态区域可以简单地进行重构，这限制了学习有意义表示的能力。为此，我们引入了一种动态加权重构损失来改进时间建模。我们在 NTU-60、NTU-120 和 ETRI 数据集上报告了最先进的结果，并在 NUCLA、PKU-MMD-II 和 ROCOG-v2 数据集上进行了迁移学习设置，证明了我们方法的鲁棒性。我们将提供代码。

Jan, 2024

稳定视角合成

该研究提出了一种名为 Stable View Synthesis（SVS）的方法，利用结构从运动和多视角立体技术生成几何脚手架，并通过处理每个点的方向特征向量合成新的特征，再用卷积网络从合成的特征张量中渲染出目标图像，实现获取展示场景并进行合成视图的能力，并在三个不同世界数据集上得到了优异的性能表现。

Nov, 2020

自由视角合成

本文提出了一种新的方法，可以从自由分布在场景周围的输入图像中合成新视角的图像，不依赖于输入视角的规则排列，可以为场景中的自由相机运动合成图像，并适用于具有任意几何布局的通用场景，该方法通过 SfM 对输入图像进行校准并通过 MVS 建立一个粗略的几何支架，然后基于透视图创建一个代理深度图，进而利用循环编解码网络处理从附近视角重新投影的特征，并合成新视角。该网络不需要针对特定场景进行优化，通过数据集训练后，可以在之前看不到的环境中工作，本文的方法在 Tanks and Temples 等具有挑战性的现实世界数据集上进行了评估和实验证明，表现出色，大大优于之前和同时进行的工作。

Aug, 2020

基于单目神经网络的连续视角控制图像渲染

本文提出了一个自监督学习的方法，通过深度引导的调整过程，利用变换自编码器的网络结构，在只有 2D 图像和相关视角变换的情况下精确合成高质量的 3D 对象或场景的新视角，并实现了细粒度和精密的六自由度视角控制。通过在合成和真实场景以及精细和固定视角设置下的彻底评估，证明了该方法的广泛适用性。

Jan, 2019

基于向量符号架构的非配对图像转换

使用矢量符号结构（VSA）作为理论框架，将 VSA 约束应用于对抗学习，通过学习矢量映射来反转翻译，以确保与源内容的一致性，从而提高了图像翻译的效果。

Sep, 2022

高效多尺度体素雕刻的大规模场景自监督新型 2D 视角合成

提出了一种基于多尺度体素雕刻和自学习的算法来生成实景的新视角，在无人机等大规模真实环境下表现出色。

Jun, 2023