基于RGB的一次性视角规划中利用来自3D扩散模型的先验知识
本文提出一种新的模型架构,将单视角三维重建重新定义为分类无关的先验纠正学习,初步结果表明该模型可以从提供的少至一组三维形状开始对目标物品进行分类再建,无需重新训练,且对于多视角的立体成像也有较好表现。
Sep, 2019
使用基于扩散的模型,结合现有的二维扩散骨架和三维特征体,进行三维感知的图像生成,同时具备自回归生成3D一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。
Apr, 2023
我们结合扩散策略和3D场景表示来实现机器人操纵,提出了一种名为3D Diffuser Actor的神经策略体系结构,它在给定语言指令的情况下构建视觉场景的3D表示,并在此基础上迭代性地对机器人的末端执行器进行3D旋转和平移噪声去除。通过实验验证,我们的模型在机器人学习领域取得了显著的性能提升。
Feb, 2024
提出一种新颖的图像编辑技术,可以在单幅图像上进行三维操作,如物体旋转和平移。通过使用在广泛的文本-图像对上训练的强大图像扩散模型,实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑,突破了单幅图像三维感知编辑的可能性的局限。
Mar, 2024
通过将Diffusion模型与特征提取技术相结合,本文提出了Zero123-6D方法,并在CO3D数据集上进行了实验,展示了在类别级别上通过扩展稀疏的纯RGB参考视图来提高零侧位姿估计性能、减少数据需求以及消除对深度信息的需求。
Mar, 2024
基于人类基于过去经验从2D图像中推断出3D结构,并随着观察更多图像改进3D理解的行为,我们引入了SAP3D,这是一个从任意数量的非约束图像进行3D重建和新视角合成的系统。给定一些非约束图像,我们通过测试时微调来调整预训练的视图条件扩散模型和图像的摄像机位姿。调整后的扩散模型和获得的摄像机位姿被用作3D重建和新视角合成的特定实例先验。我们通过实际图像和标准合成基准测试了我们的系统。我们的消融研究证实了这种适应行为对于更准确的3D理解至关重要。
Apr, 2024
通过使用机器人的三维模型的虚拟渲染物对低级机器人动作和RGB观察在图像空间内进行联合观察和行动表示,并使用学习扩散过程计算低级机器人动作,该方法将高维观察和低级机器人动作间的复杂映射整合在一起,增加了样本效率和空间概括的归纳偏差。在仿真环境中对R&D的多个变体进行了全面评估,并展示其在真实世界中六个日常任务中的适用性,结果显示R&D具有较强的空间概括能力,并且比常见的图像到动作方法具有更高的样本效率。
May, 2024
本研究解决了在三维视觉中应用扩散模型的效率和可扩展性问题,尤其是在从二次数据恢复三维场景的准确性挑战。通过对扩散模型的数学原理和架构进展的深入分析,论文阐述了其在三维对象生成、形状补全等任务中的应用。研究的主要发现是,优化计算效率和探索大规模预训练可显著提升三维视觉任务的表现,推动该领域的发展。
Oct, 2024
本研究解决了传统对象级映射中因部分遮挡和传感器噪声导致的形状不完整和姿态估计不准确的问题。提出的GOM系统利用3D扩散模型作为多类别支持的形状先验,能够同时输出纹理和几何信息,显著提升了从稀疏视图进行多类别映射的性能,实现了比现有最先进方法更精确的映射结果。
Oct, 2024