LooseControl: 广义深度条件下的Lifting ControlNet
本篇论文提出了一种利用3D geometry control和visual prompts的扩展diffusion models生成图像的方法,可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。
Jun, 2023
Blocks2World是一种新颖的3D场景渲染和编辑方法,通过凸分解和条件合成的两步过程,从各种物体中提取3D平行四边形来获取场景的原始表示,进而通过简单的射线追踪深度图来生成配对数据,最后训练条件模型,学习从2D渲染的凸多边形到图像的直接映射,从而实现对新颖场景和编辑场景的出色控制和综合。
Jul, 2023
通过引入MVControl神经网络架构,我们成功地提出了一种能够增强现有预训练的多视角二维扩散模型并结合额外输入条件(如边缘图)的方法。通过我们的方法,实现了可控的多视角图像生成和视角一致的三维内容创作。
Nov, 2023
通过最新的生成模型,提出了一种名为LucidDreaming的有效管道,能够对3D生成进行精细控制,只需要最少的3D边界框输入,可以通过简单的文本提示使用大型语言模型推断,通过渲染和优化对象实现对象的分开生成,与基准方法相比,实现了更高水平的3D内容对齐,并提供了一个带有3D边界框的数据集,用于评估3D空间可控性。
Nov, 2023
Diffusion Handles通过运用事先训练好的扩散模型和2D图像深度估计,实现了在扩散图像上进行3D对象编辑的新方法。通过将对象的扩散激活提升到3D空间,并在图像空间中反投影,应用具有标识控制的扩散过程,生成了保持对象身份的逼真编辑图像,显示出复杂的3D遮挡和光照效果。量化评估和用户研究表明,Diffusion Handles在3D编辑和标识控制方面的输出更加逼真且优于先前的研究成果。
Dec, 2023
通过对不同空间布局的场景渲染进行联合去噪,SceneDiffusion方法的关键见解在于可以通过优化扩散采样过程中的分层场景表示来实现空间分离,从而生成支持移动、调整大小、克隆以及逐层外观编辑(包括目标重塑和替换)等广泛空间编辑操作的场景。此外,可以根据参考图像生成场景,从而实现对野外图像中的目标进行移动,该方法无需进行训练,与一般的文本-图像扩散模型兼容,并且响应时间少于一秒。
Apr, 2024
本研究解决了现有可控生成方法对计算资源需求高和控制能力薄弱的问题。提出的ControlNeXt方法通过简化架构,显著减少训练中可学习参数,并结合交叉归一化技术,以实现更快的训练收敛。实验结果表明,该方法在图像和视频生成中都表现出强大的鲁棒性和效率。
Aug, 2024
本研究解决了现有可控生成方法在计算资源与控制精度上的不足,提出了ControlNeXt,一种高效的图像和视频生成控制方法。通过设计简洁的架构和减少学习参数,显著提高了训练效率和控制能力,实验结果表明该方法在多种基础模型上均表现出色,有望推动可控生成技术的发展。
Aug, 2024
本研究解决了现有文本到图像扩散模型在理解物体布局和关系方面的不足,提出了一种互动3D布局控制的新方法。通过引入动态自注意力模块和一致的3D物体转换策略,我们的实验表明,该方法在生成复杂场景方面显著提高了物体生成成功率,是室内设计和复杂场景生成的有力工具。
Aug, 2024
本研究解决了现有图像生成模型在姿态控制上的局限性,尤其对多样化对象和姿态的应用。通过提出深度基础的姿态控制方法Skip-and-Play,研究表明该方法能够有效减少形状依赖性,同时保持生成图像的姿态。实验结果显示,Skip-and-Play在生成多样对象和姿态的能力上远超传统方法,具有显著的应用潜力。
Sep, 2024