DiffAssemble:二维和三维重新组装的统一图扩散模型
一篇关于图像引导物体组装的研究论文介绍了一项新任务:将结构 3D 模型的多视角图像(例如,从 3D 对象库中选择的积木构建而成的模型)翻译成可由机器人臂执行的详细组装指令序列。该论文提出了一种名为神经组装者的端到端模型,通过学习图形对象图来识别图像中的组件,并通过边指定 3D 模型的拓扑结构,从而得出组装计划,并进行了全面的实证评估,证明了神经组装者的优越性。
Apr, 2024
本文介绍了一种从碎片中重新组合图像的方法,主要贡献包括几种深度学习算法、图形中的最短路径等方面,还提供了一个以大都会艺术博物馆 (MET) 为数据集的图像拼接方法。
Sep, 2018
本文提出了一种基于递归图学习的自主组装物体的新方法,通过考虑零件之间的相互关系和部件姿态的逐步更新,实现了对具有结构变异的物体的组装。该网络在 PartNet 数据集上相对于现有技术实现了 10% 的部件精度和 15% 的连通性精度的提升,同时具备从点云组件中恢复形状结构的潜在应用。实验证明了该方法的有效性。
Jul, 2021
本研究提出了一种名为 MVDiffusion++ 的神经架构,用于 3D 物体重建,通过一张或几张图像生成物体的密集高分辨率视图。MVDiffusion++ 采用了两个令人惊讶地简单的想法,即 “无姿态架构”,其中 2D 潜在特征之间的标准自注意力学习了在任意数量的条件和生成视图之间的 3D 一致性,而无需明确使用相机姿态信息,并且 “视图丢弃策略” 在训练期间丢弃了大量输出视图,减少了训练时的内存占用,并且在测试时实现了密集高分辨率视图合成。我们使用 Objaverse 进行训练并使用 Google 扫描的物体进行评估,采用了标准的新视图合成和 3D 重建度量,其中 MVDiffusion++ 显著优于当前的技术水平。我们还通过将 MVDiffusion++ 与文本到图像生成模型相结合,展示了一个文本到 3D 的应用示例。
Feb, 2024
通过使用神经资产(Neural Assets)控制场景中各个对象的三维姿势,我们提出了一种解决图像扩散模型中多对象三维姿势控制问题的方法,通过将目标帧的对象姿势作为条件编码到参考图像的对象视觉表示中,实现了外观与姿势特征的分离,并结合现有模型的文本到图像架构,使得我们的方法能够对场景中的每个对象进行精细的三维姿势和放置控制,通过在预训练的文本到图像扩散模型中微调这些信息,我们的模型在合成三维场景数据集和两个真实世界视频数据集(Objectron, Waymo Open)上实现了最新的多对象编辑结果。
Jun, 2024
通过 Guided Set Diffusion Model 实现 PolyDiffuse,将传感器数据转换为 polygonal shapes 进行重建,解决了噪声消除和重建任务中的基本挑战,同时在 floorplan 和 HD map 的重建中取得了显著的进展并具有更广泛的实际应用。
Jun, 2023
比较了基于 GAN 和扩散模型的图像翻译网络在 6D 物体姿态估计任务中的表现,结果表明扩散模型优于 GAN,揭示了进一步改进物体姿态估计模型的潜力。
Feb, 2024
基于扩散模型和逆扩散算法的 6D 物体姿态估计框架,在减少噪声和不确定性的基础上实现准确的 2D-3D 对应,并通过对物体特征进行条件优化,取得了较好的性能。
Dec, 2023