本文提出了一种使用真实图像来训练、无需 3D 场景真值信息,通过可微分点云渲染器将潜在 3D 特征点云转换为目标视图输出图像,并通过细化网络解码来填补缺失区域的新型端到端模型,在测试时可以对潜在特征空间进行可解释的操作,可以生成高分辨率图像并推广到其他输入分辨率,将在 Matterport、Replica 和 RealEstate10K 数据集上优于基线和之前的工作。
Dec, 2019
在这篇论文中,我们提出了一种新的方法来从单个场景图像和大摄像机动作轨迹中综合出一致的长视频,并使用自回归 Transformer 以及基于摄像机的局部性约束来预测多个帧之间关系和下一帧,从而实现了对多帧的序列建模,优于现有的方法,尤其是在室内 3D 场景的长期未来合成中表现出色。
Mar, 2022
研究如何从 1 或多张图像中合成逼真的室内 3D 场景,采用了基于图像的 GAN 来直接映射成高分辨率的 RGB-D 图像,及在 VLN 训练中进行空间干扰以提高成功率。
Apr, 2022
通过利用生成模型,将零样本新视点合成问题分为两个阶段,即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决 3D 一致性问题,本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估,证明了所提出机制在效果上优于现有方法。
Oct, 2023
该论文利用深度学习技术对单张图片进行多平面图像生成,应用于视图合成问题中,并将 scale-invariant 视图合成应用于监督训练,在在线视频上进行训练。该方法适用于多个数据集,可以生成合理的深度图,并且可以学习填充前景物体背后的内容。
Apr, 2020
我们提出了一种简单而有效的框架 Efficient-3DiM,用于学习单张图像的新视角合成器,通过减小训练开销,包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案,实现了将总训练时间从 10 天缩短到不到 1 天,并在相同计算平台上(8 个 Nvidia A100 GPU 实例)加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。
该研究提出了一种从单个输入图像中推断出场景的分层结构 3D 表示的方法,使用视图合成作为代理任务来弥补直接监督缺失的不足,并展示了其在两种不同场景下的定性和定量验证结果。
Jul, 2018
本文提出一种叫做 GVS 的方法,可基于输入的语义地图,综合出多个真实感的场景视角,还可进行风格操作和图像编辑操作,如通过简单处理输入的风格图像和语义映射来添加或删除对象等。
Aug, 2020
使用大型图像扩散模型,通过引入跨视图关注层和共享自注意机制,提出了 Consistent123 模型以实现同时合成新视角,并在 3D 重建和图像到 3D 生成等下游任务的表现上有显著提升。
本文提出了一种基于条件扩散模型的新型生成模型,用于从单个输入图像生成相对的摄像机视图的连续序列的照片般逼真、视角一致、空间几何连续的图像。
Apr, 2023