DiffAssemble：二维和三维重新组装的统一图扩散模型

CVPRFeb, 2024

DiffAssemble：二维和三维重新组装的统一图扩散模型

DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly

Gianluca Scarpellini, Stefano Fiorini, Francesco Giuliari, Pietro Morerio, Alessio Del Bue

TL;DRDiffAssemble 是基于图神经网络（GNN）的架构，通过扩散模型的形式学习解决重组任务。它在大多数 2D 和 3D 重组任务中实现了最先进的结果，并且是第一个解决旋转和平移 2D 拼图的基于学习的方法。此外，我们强调它在运行时间上的显着降低，比快速的基于优化的拼图方法快了 11 倍。

Abstract

reassembly tasks play a fundamental role in many fields and multiple approaches exist to solve specific reassembly problems. In this context, we posit that a general unified model can effectively address them all, irrespective of the input data type (images, 3D, etc.). We introduce

reassembly tasks diffassemble graph neural network diffusion model 2d and 3d reassembly tasks

发现论文，激发创造

神经装配器：从多视图图像中学习生成细粒度的机器人组装指令

一篇关于图像引导物体组装的研究论文介绍了一项新任务：将结构 3D 模型的多视角图像（例如，从 3D 对象库中选择的积木构建而成的模型）翻译成可由机器人臂执行的详细组装指令序列。该论文提出了一种名为神经组装者的端到端模型，通过学习图形对象图来识别图像中的组件，并通过边指定 3D 模型的拓扑结构，从而得出组装计划，并进行了全面的实证评估，证明了神经组装者的优越性。

Apr, 2024

利用深度学习和最短路径问题进行图像重新组装

本文介绍了一种从碎片中重新组合图像的方法，主要贡献包括几种深度学习算法、图形中的最短路径等方面，还提供了一个以大都会艺术博物馆 (MET) 为数据集的图像拼接方法。

Sep, 2018

动态图学习生成三维零件装配

该论文提出了一种基于动态图卷积神经网络的自主部件组装方法，主要解决了几何和关系推理的部件姿态估计子问题，从而将输入部件组装成一个 3D 形状。

Jun, 2020

RGL-NET：一种递归图学习框架，用于渐进式零件组装

本文提出了一种基于递归图学习的自主组装物体的新方法，通过考虑零件之间的相互关系和部件姿态的逐步更新，实现了对具有结构变异的物体的组装。该网络在 PartNet 数据集上相对于现有技术实现了 10% 的部件精度和 15% 的连通性精度的提升，同时具备从点云组件中恢复形状结构的潜在应用。实验证明了该方法的有效性。

Jul, 2021

MVDiffusion++：密集高分辨率多视图扩散模型用于单视或稀疏视角的三维对象重建

本研究提出了一种名为 MVDiffusion++ 的神经架构，用于 3D 物体重建，通过一张或几张图像生成物体的密集高分辨率视图。MVDiffusion++ 采用了两个令人惊讶地简单的想法，即 “无姿态架构”，其中 2D 潜在特征之间的标准自注意力学习了在任意数量的条件和生成视图之间的 3D 一致性，而无需明确使用相机姿态信息，并且 “视图丢弃策略” 在训练期间丢弃了大量输出视图，减少了训练时的内存占用，并且在测试时实现了密集高分辨率视图合成。我们使用 Objaverse 进行训练并使用 Google 扫描的物体进行评估，采用了标准的新视图合成和 3D 重建度量，其中 MVDiffusion++ 显著优于当前的技术水平。我们还通过将 MVDiffusion++ 与文本到图像生成模型相结合，展示了一个文本到 3D 的应用示例。

Feb, 2024

神经资产：具有 3D 感知多目标场景合成的图像扩散模型

通过使用神经资产（Neural Assets）控制场景中各个对象的三维姿势，我们提出了一种解决图像扩散模型中多对象三维姿势控制问题的方法，通过将目标帧的对象姿势作为条件编码到参考图像的对象视觉表示中，实现了外观与姿势特征的分离，并结合现有模型的文本到图像架构，使得我们的方法能够对场景中的每个对象进行精细的三维姿势和放置控制，通过在预训练的文本到图像扩散模型中微调这些信息，我们的模型在合成三维场景数据集和两个真实世界视频数据集（Objectron, Waymo Open）上实现了最新的多对象编辑结果。

Jun, 2024

PolyDiffuse: 通过引导集合扩散模型进行多边形形状重构

通过 Guided Set Diffusion Model 实现 PolyDiffuse，将传感器数据转换为 polygonal shapes 进行重建，解决了噪声消除和重建任务中的基本挑战，同时在 floorplan 和 HD map 的重建中取得了显著的进展并具有更广泛的实际应用。

Jun, 2023

利用扩散模型改进 2D-3D 稠密对应关系以提高 6D 物体姿态估计

比较了基于 GAN 和扩散模型的图像翻译网络在 6D 物体姿态估计任务中的表现，结果表明扩散模型优于 GAN，揭示了进一步改进物体姿态估计模型的潜力。

Feb, 2024

AsyncDiff：通过异步去噪并行化传播模型

利用多设备之间的模型并行性，通过对多个组件进行异步处理，AsyncDiff 显著缩短推理延迟，同时最小程度地影响生成质量。

Jun, 2024

6D-Diff: 一个用于 6D 物体姿态估计的关键点扩散框架

基于扩散模型和逆扩散算法的 6D 物体姿态估计框架，在减少噪声和不确定性的基础上实现准确的 2D-3D 对应，并通过对物体特征进行条件优化，取得了较好的性能。

Dec, 2023