三维形态一致化：野外三维感知图像对齐

Apr, 2024

三维形态一致化：野外三维感知图像对齐

3D Congealing: 3D-Aware Image Alignment in the Wild

Yunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li...

TL;DR我们提出了 3D Congealing 方法，这是一个新颖的问题，即对于捕捉到语义相似物体的 2D 图像进行 3D 感知对齐。我们的目标是将输入图像中的共享语义部分与 2D 图像中的知识聚合到共享的 3D 规范空间中，通过一个不依赖于形状模板、姿态或任何相机参数的通用框架来完成此任务。该框架的核心是一个将几何和语义信息封装在内的规范 3D 表示。优化过程结合了每个输入图像的规范表示和姿态，以及将 2D 像素坐标映射到 3D 规范框架以解决形状匹配的位置坐标映射。优化过程融合了来自预训练图像生成模型的先验知识和来自输入图像的语义信息。前者在这个限制条件下为任务提供了强大的知识引导，而后者则提供了减轻预训练模型中训练数据偏差所需的信息。我们的框架可用于各种任务，如对应匹配、姿态估计和图像编辑，在具有挑战性的光照条件下以及在野外在线图像集合中取得了优异的结果。

Abstract

We propose 3d congealing, a novel problem of 3D-aware alignment for 2d images capturing semantically similar objects. Given a collection o

3d congealing alignment 2d images canonical representation semantic information

发现论文，激发创造

使用深度惩罚重建紧密对齐数百万图像

该论文提出了一种基于稠密融合的空间变换器网络和低容量自编码器的无监督联合对准方法，能够在 MNIST 和 LFW 数据集中高精度、鲁棒地对齐数百万张图像，比现有方法具有更好的对齐质量和初始鲁棒性。

Aug, 2019

端到端弱监督语义对齐

本文提出了一种基于卷积神经网络和不同 iable soft inlier scoring 模块的语义对齐方法，该方法无需繁琐的手工标注就能实现对不同但具有语义相关性的图像进行参数学习，并从几何上一致的对应关系计算对齐质量，达到了基于多个标准基准的语义对齐的最先进表现。

Dec, 2017

Cohere3D：利用时间一致性进行无监督视觉自动驾驶的表示学习

为了克服图像中缺乏深度线索的问题，本文提出了一种新的对比学习算法 Cohere3D，用于在长期输入序列中学习一致的实例表示，从而在自动驾驶的下游任务中实现多个输入帧的实例级对应。通过预训练阶段中从 LiDAR 传感器中的原始点云构建长期时序对应来辅助从基于视觉的鸟瞰特征图中提取实例级表示。实验证明该算法在数据效率和任务性能方面都取得显著改进。

Feb, 2024

大规模三维语义分割中的野外多视角聚合学习

本文提出了一种端到端可训练的多视角聚合模型，利用 3D 点的视角优势，从任意位置拍摄的图像中合并特征，将标准 2D 和 3D 网络相结合，不需要着色、上网格或真实深度图，我们在 S3DIS 和 KITTI-360 数据集上取得了新的最佳效果。

Apr, 2022

通过姿态估计和匹配实现通用三维表示

本文针对 3D 图像生成开展了探索，提出了一种基于多任务卷积神经网络的通用 3D 方案。通过建立代理 3D 任务来提供训练，神经网络在完成核心问题的同时也具备泛化能力和抽象能力，并在多个场景取得了超越 SIFT 等方法的成果。

Oct, 2017

GAN 监督下的密集视觉对准

本研究提出了 “GAN 监督学习” 框架，该框架通过 GAN 生成的训练数据，同时学习判别模型，以及针对密集视觉对准问题的 GANgealing 算法，该算法采用 Spatial Transformer 将 GAN 生成的未对准数据随机样本映射到共同学习的目标模式上实现数据对准。实验结果表明此方法成功地对齐了复杂的数据，并发现了密集的对应关系。与过去的自监督对应算法相比，GANgealing 显著提高了效果，并在几个数据集上表现出色。该方法取得了与最先进的有监督对应算法相当甚至超过符合度，而且不需要使用任何对应关系监督或数据增强，仅在 GAN 生成的数据上进行训练。在精确对应方面，与最先进的有监督方法相比，我们的方法提高了多达 3 倍。此外，我们还展示了将其应用于增强现实、图像编辑和提前处理图像数据集以进行下游 GAN 训练等方面的应用。

Dec, 2021

基于语义一致性的自监督单视图 3D 重建

我们提出了一种自监督的，单视图三维重建模型，通过 2D 图像和物体的轮廓预测目标物体的 3D 网格形状、纹理和相机姿势，该方法不需要三维监督，手动注释的关键点，物体的多视图图像或先前的 3D 模板，通过自监督地学习分类特定图像的部分分割，我们可以在重建网格与原始图像之间有效强制实现语义一致性，从而大大减少了模型在预测物体形状、纹理和相机姿态时的歧义，并且我们的模型可以不需要这些标签而轻松地推广到各种物体类别。

Mar, 2020

人脸联合对齐及三维面部重建在人脸识别中的应用

提出了一种新的联合人脸对齐和三维人脸重建方法，该方法可以自动生成姿态和表情归一化的三维人脸，并能恢复可见和不可见的二维人脸关键点，从而可以改善跨姿态和表情的人脸识别准确性。实验结果表明，该方法在人脸对齐和三维人脸重建方面均达到了最先进的精度。

Aug, 2017

姿态不变的 3D 人脸对齐

本文提出一种新的面部对齐算法，利用 3D 可变形模型和级联耦合回归器，估计带有任意姿态的人脸图像的 2D 和 3D 地标及其 2D 可视性。实验结果表明，该算法在所有姿态人脸图像上的表现优于现有方法。

Jun, 2015

异质 2D 图像集联合深度多图匹配与三维几何学习

提出了一种基于图神经网络的、可训练的框架，用于从不同的图像集合中学习可变形的三维几何模型，并在图形匹配中取得更好的性能。

Mar, 2021