AnyLens:一种带有任意渲染镜头的生成扩散模型
本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法,并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成 3D 一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024
通过引入一种新的二维扩散模型来生成由四个正交视图子图像组成的图像,从而利用正交视图图像引导生成高保真度的三维内容,并应用渐进式三维合成策略,显著提高了生成效率和质量,包括解决了 Janus 问题,并在定量和定性评估中证明了优越性。
Aug, 2023
本文介绍了增强依赖于文本查询的扩散模型的空间可控性的创新解决方案,提出了两个关键创新:视觉引导和分层渲染扩散(LRDiff)框架。该方法通过视觉引导和分层渲染策略实现更高效和准确的图像综合,用于满足特定的空间和上下文需求,并通过实验证明其在定量和定性上优于现有技术。
Nov, 2023
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
通过引入新的几何约束条件在生成模型的训练过程中强制进行透视准确性的要求,我们展示了使用该约束条件训练的生成模型的输出既更加逼真,同时还提高了在生成图像上进行训练的下游模型的性能。主观人类实验表明,使用我们约束条件训练的潜在扩散模型生成的图像在 70% 的情况下优于 Stable Diffusion V2 模型生成的图像。我们的图像微调后的 SOTA 单眼深度估计模型如 DPT 和 PixelFormer 在 KITTI 测试集上的零 - shot 转移中 RMSE 上超过真实图像训练的原始模型最多 7.03%,SqRel 上超过 19.3%。
Dec, 2023
通过引入 SphereDiffusion 框架来解决球面畸变和几何特性带来的挑战,以更好地生成高质量且可精确控制的球面全景图像。通过嵌入扭曲对象的语义和文本编码,构建文本 - 物体对应关系,利用预训练的平面图像的先验知识;同时采用可变形技术减少球面畸变导致的潜空间中的语义偏差;通过改进训练过程中的数据多样性和优化目标,以适应球面旋转不变性的特点,并增强扩散模型的去噪过程,以保证生成图像的边界连续性。实验结果表明,SphereDiffusion 显著提高了可控球面图像生成的质量,平均降低了约 35% 的 FID。
Mar, 2024
通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022