3D扩散行为者:带有3D场景表示的策略扩散
介绍了一种通过同时发现、跟踪、重构对象及预测其动态来捕获三个关键对象属性的三维动态场景表示方法 DSR,基于此提出了 DS 核网络 DSR-Net 模型,在建立和优化 DSR 模型的过程中逐渐聚合视觉观测,并在仿真和实际数据上实现了 3D 场景动力学建模的最新性能,结合模型预测控制,也为下游机器人操作任务如平面推动提供了准确规划的能力。
Nov, 2020
SceneDiffuser 是一个用于 3D 场景理解的条件生成模型,通过扩散过程,联合制定了场景感知生成、基于物理的优化和面向目标的规划模块,相对于之前的模型,具有内在的场景感知、基于物理的设计器和面向目标的设计等优点,在人体姿态和运动生成、灵巧握持生成、三维导航路径规划和机器人臂运动规划等任务上表现了极大的潜力。
Jan, 2023
本文提出的Manupulation策略Transformer Act3D,将6DoF关键点预测作为自适应空间计算的3D检测操作,取得RLbench操作测试中最佳效果。
Jun, 2023
3D Diffusion Policy (DP3) is a novel visual imitation learning approach that incorporates 3D visual representations to teach robots dexterous skills, demonstrating precise control, high success rates, and excellent generalization abilities, while rarely violating safety requirements in real-world robot learning.
Mar, 2024
通过使用机器人的三维模型的虚拟渲染物对低级机器人动作和RGB观察在图像空间内进行联合观察和行动表示,并使用学习扩散过程计算低级机器人动作,该方法将高维观察和低级机器人动作间的复杂映射整合在一起,增加了样本效率和空间概括的归纳偏差。在仿真环境中对R&D的多个变体进行了全面评估,并展示其在真实世界中六个日常任务中的适用性,结果显示R&D具有较强的空间概括能力,并且比常见的图像到动作方法具有更高的样本效率。
May, 2024
我们提出了一种名为ManiCM的实时机器人操作模型,该模型通过在扩散过程中施加一致性约束来生成机器人动作,以实现仅进行一步推理。通过在机器人动作空间中制定一致的扩散过程和点云输入条件下对原始动作进行直接降噪操作,我们设计了一种一致性蒸馏技术来直接预测动作样本,而不是预测视觉领域中的噪声,以在低维动作流形中实现快速收敛。我们在Adroit和Metaworld的31个机器人操作任务上评估了ManiCM的性能,结果表明我们的方法平均推理速度提高了10倍,同时保持具有竞争力的平均成功率。
Jun, 2024
本研究解决了在三维视觉中应用扩散模型的效率和可扩展性问题,尤其是在从二次数据恢复三维场景的准确性挑战。通过对扩散模型的数学原理和架构进展的深入分析,论文阐述了其在三维对象生成、形状补全等任务中的应用。研究的主要发现是,优化计算效率和探索大规模预训练可显著提升三维视觉任务的表现,推动该领域的发展。
Oct, 2024
本研究解决了类人机器人在多样环境中自主操控能力受限的问题,提出了一种新的3D视觉运动策略,即改进的3D扩散策略(iDP3),其通过利用自我中心的3D视觉表示,克服了现有技术在移动机器人应用中的局限性。研究表明,iDP3使全尺寸类人机器人能够在多种真实场景中自主执行技能,显著提高了类人机器人的操作灵活性。
Oct, 2024
本研究解决了现有视觉-语言动作模型在处理多样化动作空间时的能力不足问题,通过引入一种名为扩散变换器策略的大型多模态变换器模型,直接对动作段进行去噪。结果表明,该方法在各种机器人数据集上实现了更优的泛化性能,尤其在实际应用中如Franka臂上表现突出,显著提升了任务完成率。
Oct, 2024
本研究解决了扩散策略在复杂机器人操作任务中缺乏几何和语义明确性的问题,从而限制了其对未见对象和布局的泛化能力。通过引入3D语义场的方法,我们有效地整合了空间与语义信息,显著提高了扩散策略在未见实例上的成功率,从20%提升至93%。
Oct, 2024