跳跃与播放：面向任意对象的深度驱动姿态保持图像生成

Sep, 2024

跳跃与播放：面向任意对象的深度驱动姿态保持图像生成

Skip-and-Play: Depth-Driven Pose-Preserved Image Generation for Any Objects

Kyungmin Jo, Jaegul Choo

TL;DR本研究解决了现有图像生成模型在姿态控制上的局限性，尤其对多样化对象和姿态的应用。通过提出深度基础的姿态控制方法Skip-and-Play，研究表明该方法能够有效减少形状依赖性，同时保持生成图像的姿态。实验结果显示，Skip-and-Play在生成多样对象和姿态的能力上远超传统方法，具有显著的应用潜力。

Abstract

The emergence of Diffusion Models has enabled the generation of diverse high-quality images solely from text, prompting subsequent efforts to enhance the controllability of these models. Despite the improvement in controllability, →

发现论文，激发创造

基于图像合成的深度3D人体姿态估计

本文提出了一种在“野外”环境中进行三维人体姿态估计的解决方案，通过生成大量的具有三维姿势标注的逼真合成图像，并使用这些图像对全身三维姿势进行端对端的卷积神经网络训练，成功地在受控环境（Human3.6M）中优于大多数已发表的作品，并在真实图像（LSP）中展现了有前途的结果。

Feb, 2018

KeyPose：透明物体多视图三维标注与关键点估计

该论文提出了一种基于双目视觉输入的深度神经网络，称为KeyPose，并使用该网络从RGB相机标记的三维关键点预测物体姿势，即使在透明物体的情况下也能取得比现有方法更好的3D姿态估计表现。

Dec, 2019

相机姿态的影响：通过减轻姿态分布偏差改善深度预测

提出两种新技术解决单目深度预测模型因训练数据相机位置偏差带来的泛化性能下降问题，一种基于数据增强的方法，一种基于条件模型的方法，实验证明两种方法能够显著提高模型在拍摄位置不同的图像中的预测效果和泛化性能。

Jul, 2020

将3D几何控制添加到扩散模型中

本篇论文提出了一种利用3D geometry control和visual prompts的扩展diffusion models生成图像的方法，可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。

Jun, 2023

基于几何引导文本图像扩散模型的神经辐射场可控三维化身生成

提出了一种可控的文本到三维头像生成方法Text2Control3D，利用ControlNet生成视角感知图像，并通过交叉注意力注入可控的面部表情和外貌，通过高斯潜变量的低通滤波解决了视角不可知纹理问题，以及通过学习图片形变表构建三维头像。

Sep, 2023

LooseControl: 广义深度条件下的Lifting ControlNet

我们提出了LooseControl，用于实现基于扩散的图像生成的广义深度条件控制。LooseControl通过场景边界控制和3D盒子编辑，使用户能够通过指定场景边界和目标对象位置来创建复杂环境，并提供了两种编辑机制，使结果得以精细调整。

Dec, 2023

可塑扩散：单图像化身创造的三维一致扩散

本研究工作旨在通过将3D可变模型整合到最新的多视角一致性扩散方法中，增强生成扩散模型在创建可控、照片般逼真的人类头像任务中的质量和功能。我们的实验证明了在基于关节的3D模型的准确约束下，生成流水线模型在单图像的新视角合成任务上的性能改进，更重要的是，这种整合实现了面部表情和身体姿势控制在生成过程中的无缝和准确融入。据我们所知，我们提出的框架是第一个允许从未见过的单一图像创建完全3D一致、可动画和照片般逼真的人类头像的扩散模型；广泛的定量和定性评估证明了我们的方法在新视角和新表情合成任务上相对于现有最先进的头像创建模型的优势。

Jan, 2024

DiffusionNOCS：管理Sim2Real多模式类别层面姿态估计中的对称性和不确定性

通过引入概率模型和扩散方法，该研究提出了一种能够解决类别级别姿态估计问题的方法，并通过测试在真实数据集上展示了该方法的有效性和出色的泛化能力。

Feb, 2024

CamCo：可控相机的三维一致的图像到视频生成

通过引入 CamCo，我们为图像到视频生成器提供了精确参数化的相机姿态输入，通过 Plücker 坐标，以增强视频生成的 3D 一致性和相机控制能力，同时有效生成可信的物体运动。

Jun, 2024

神经资产：具有3D感知多目标场景合成的图像扩散模型

通过使用神经资产（Neural Assets）控制场景中各个对象的三维姿势，我们提出了一种解决图像扩散模型中多对象三维姿势控制问题的方法，通过将目标帧的对象姿势作为条件编码到参考图像的对象视觉表示中，实现了外观与姿势特征的分离，并结合现有模型的文本到图像架构，使得我们的方法能够对场景中的每个对象进行精细的三维姿势和放置控制，通过在预训练的文本到图像扩散模型中微调这些信息，我们的模型在合成三维场景数据集和两个真实世界视频数据集（Objectron, Waymo Open）上实现了最新的多对象编辑结果。

Jun, 2024