无几何先验的视图合成：Transformer 技术

ICCVApr, 2021

无几何先验的视图合成：Transformer 技术

Geometry-Free View Synthesis: Transformers and no 3D Priors

Robin Rombach, Patrick Esser, Björn Ommer

TL;DR本文研究了利用卷积神经网络需要显式的 3D 偏置模型来模拟立体几何变换，而相比之下，使用基于变换器的模型可以在不需要手动设计 3D 偏置的情况下，通过全局注意机制和概率形式隐式地学习源视图和目标视图之间的长距离 3D 对应关系来生成全新视图，克服了先前方法面对相对较小的视角变化的限制。实验表明，不需要几何先验知识时，变换器仍能隐式地学习 3D 之间的关系，并且在视觉质量方面优于现有技术。

Abstract

Is a geometric model required to synthesize novel views from a single image? Being bound to local convolutions, cnns need explicit 3D biases to model geometric transformations. In contrast, we demonstrate that a

geometric model cnns transformer-based model global attention mechanism probabilistic formulation

发现论文，激发创造

用于单图像新视角合成的几何感知深度网络

本文提出了一种利用场景 3D 几何信息进行新视角生成的方法，通过学习区域感知几何转换网络实现输入图像到目标视角的变换，并在 KITTI 和 ScanNet 数据集上取得了优于现有方法的高质量生成效果。

Apr, 2018

教授 Transformer 多视图几何的轻触方法

本论文提出了使用极线来引导转换器的跨关注映射，以指导 Transformer 学习多视角几何，并在需要时使其突破自由。实验证明，我们的方法在对象检索方面优于现有技术，而无需在测试时提供姿态信息。

Nov, 2022

单输入图像视角合成的视觉 Transformer 网络

本研究提出利用全局和局部特征构建表达式三维模型的方法，通过训练 MLP 网络，实现从单个未定位图像中合成新视角，并在多个物体类别上进行泛化，获得了比现有方法更出色的性能和更丰富的细节渲染。

Jul, 2022

G-NeRF: 单视图图像的几何增强新视角合成

通过使用 Geometry-enhanced NeRF (G-NeRF) 方法，在 novel view synthesis 中增强几何先验，通过几何引导的多视角合成方法和深度感知型训练，解决了多视角数据不足和单视角图像几何先验提取问题，并通过定剪方法和深度感知鉴别器进一步提高了几何品质。实验证明了我们方法在定量和定性结果上的有效性。

Apr, 2024

通用三维姿势转移的几何对比变换器

本研究提出了一种定制的三维网格 Transformer 模型，用于姿态转移任务，并在全局和局部上提高了几何不一致性的学习，从而实现了三维姿态转移，并推广到从未知空间的具有挑战性的网格上的交叉数据集任务。

Dec, 2021

多视角几何变换器用于 3D 人体姿态估计

我们的研究旨在提高 Transformer 的三维推理能力，在多视图三维人体姿势估计中。通过引入一种新的混合模型，MVGFormer，该模型采用一系列的几何和外观模块，以迭代方式组织。其中，几何模块通过几何方式处理依赖于视角的三维任务，显著改善了模型的泛化能力。外观模块是可学习的，并且专门用于从图像信号中端到端地估计二维姿势，即使在出现遮挡时也能获得准确的估计结果，从而实现了准确性和适用于新的摄像机和几何形状的模型。经过领域内外的评估，我们的模型始终优于最先进的方法，特别是在领域外的情况下有明显的优势。我们将发布代码和模型：this URL

Nov, 2023

SweetDreamer：对齐 2D 扩散中的几何先验以实现一致性的文本到 3D

通过将 2D 扩散模型中的几何先验与定义良好的 3D 形状进行对齐，我们提高了一致性，解决了多视角不一致问题，并获得了新的最先进性能，85% 以上的一致性率，远高于以前的方法。

Oct, 2023

ViewFormer：使用 Transformer 从少量图像实现无 NeRF 神经渲染

本研究提出了一种基于 2D 的神经网络方法，结合编码键和转换模型，用于实现新颖视角合成，在不需要显式 3D 理解的情况下，相比于 NeRF 方法更高效。

Mar, 2022

基于 ImageNet 中的野外图像的几何感知 3D 生成

从多样且非结构化的 Imagenet 数据集中，我们提出了一种从二维图像中重建三维几何模型的方法，使用高效的三平面表示法学习三维模型，并基于 StyleGAN2 的生成器架构对高度多样化的数据集进行调整，通过多视点辨别防止模式崩溃并提升训练稳定性。

Jan, 2024

AUTO3D: 通过无监督学习的变分视角和全局 3D 表示进行新颖视图综合

本论文主要探讨基于学习的单个或有限 2D 图像的新视角合成，提出了一个端到端可训练的条件变分框架，通过空间相关模块从外观描述图像中提取全局的 3D 表示形状、纹理和以观察者为中心的坐标系原点等，实现无需显式 3D 重建即可隐含 3D 理解。

Jul, 2020