基于交叉注意力引导的多视角无监督图像生成

Dec, 2023

基于交叉注意力引导的多视角无监督图像生成

Multi-View Unsupervised Image Generation with Cross Attention Guidance

Llukman Cerkezi, Aram Davtyan, Sepehr Sameni, Paolo Favaro

TL;DR利用预训练的无监督自监督视觉变换器（DINOv2）对单类别数据集进行聚类，从而识别物体姿势，并带有训练在姿势标签上的姿势条件扩散模型，同时在推断时利用跨帧注意力以确保视角的一致性，进一步通过强化注意力指导提高，从而在实际图像上实现了优越于先前工作的新视角合成的模型 MIRAGE，同时在以预训练的稳定扩散生成的合成图像上进行的实验显示 MIRAGE 对于多样的纹理和几何具有鲁棒性。

Abstract

The growing interest in novel view synthesis, driven by neural radiance field (NeRF) models, is hindered by scalability issues due to their reliance on precisely annotated multi-view images. Recent models address

novel view synthesis neural radiance field diffusion model unsupervised training mirage

发现论文，激发创造

姿态引导扩散模型的一致视图合成

本文提出了一种姿态引导扩散模型来从单张图像中生成一致的、持久的新视角视频，并设计了一个利用极线作为约束的注意力层以促进不同视角之间的关联。实验结果表明，该模型在合成和真实数据集上表现优异，胜过基于 Transformer 和 GAN 的现有方法。

Mar, 2023

单输入图像视角合成的视觉 Transformer 网络

本研究提出利用全局和局部特征构建表达式三维模型的方法，通过训练 MLP 网络，实现从单个未定位图像中合成新视角，并在多个物体类别上进行泛化，获得了比现有方法更出色的性能和更丰富的细节渲染。

Jul, 2022

ViewFusion: 学习可组合的扩散模型用于新视角合成

通过深度学习，本研究提出了一种新颖的视角合成方法 ViewFusion，其以端到端的生成方式灵活地综合多个输入视角，消除噪声并生成高质量的视角，相较于现有方法具有更好的泛化性能和适用性。

Feb, 2024

ViewFormer：使用 Transformer 从少量图像实现无 NeRF 神经渲染

本研究提出了一种基于 2D 的神经网络方法，结合编码键和转换模型，用于实现新颖视角合成，在不需要显式 3D 理解的情况下，相比于 NeRF 方法更高效。

Mar, 2022

NeRDi: 基于语言引导扩散的单视角 NeRF 综合技术作为通用图像先验

提出 NeRDi—— 一种基于 2D 扩散模型通用图像先验的单视角 NeRF 综合框架，借助自然语言模型引导扩散模型进行图像合成，结合估算的深度图的几何约束，优化重建的 NeRF 表示，进而实现高质量的全景图像生成。

Dec, 2022

文字图像条件扩散用于一致的文字到 3D 生成

通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化 NeRF 表示，该方法通过预训练的文本条件的二维扩散模型（例如 ImData）监督 NeRF 优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入 NeRF 优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Dec, 2023

单目视频的动态视图合成的扩散先验

通过预定制技术在视频帧上微调预训练的 RGB-D 扩散模型，然后将知识从微调的模型提取到包含动态和静态神经辐射场（NeRF）组件的 4D 表示中，实现几何一致性并保持场景的一致性，从而进一步推进动态新视角合成。

Jan, 2024

神经辐射场的多任务视图合成

多任务视觉学习的创新问题设置，将多任务预测重新解释为多个新视角综合任务，使用 MuvieNeRF 框架同时综合多个场景属性，通过 Cross-Task Attention 和 Cross-View Attention 模块实现对多个视角和任务的高效信息利用。

Sep, 2023

具有扩散模型的长期光度一致的新视角综合

本文提出了一种基于条件扩散模型的新型生成模型，用于从单个输入图像生成相对的摄像机视图的连续序列的照片般逼真、视角一致、空间几何连续的图像。

Apr, 2023

NViST：使用 Transformers 从单张图像中合成真实环境新视角

我们提出了一种基于 transformer 的模型 NViST，用于从单张图像中合成新视角，该模型在具有复杂背景的大规模野外图像数据集上进行训练。

Dec, 2023