DNAct：扩散引导的多任务三维策略学习

Mar, 2024

DNAct：扩散引导的多任务三维策略学习

DNAct: Diffusion Guided Multi-Task 3D Policy Learning

Ge Yan, Yueh-Hua Wu, Xiaolong Wang

TL;DR本文介绍了 DNAct，一种语言驱动的多任务策略框架。该框架集成了神经渲染预训练和扩散训练，以在动作序列空间中实现多模态学习。通过利用神经渲染从基础模型中提取二维语义特征并转化到三维空间，DNAct 可以对场景进行全面的语义理解，从而适用于需要丰富三维语义和准确几何信息的各种挑战性机器人任务。此外，通过扩散训练学习视觉和语言特征， DNAct 能够区分不同任务的多模态特征从而提高学习表示的鲁棒性和泛化性能。与现有的基于 NeRF 的多任务操作方法相比，DNAct 在成功率上有 30% 以上的改进。

Abstract

This paper presents dnact, a language-conditioned multi-task policy framework that integrates neural rendering pre-training and diffusion trainin

dnact neural rendering diffusion training multi-modality learning robustness

发现论文，激发创造

3D 扩散行为者：带有 3D 场景表示的策略扩散

我们结合扩散策略和 3D 场景表示来实现机器人操纵，提出了一种名为 3D Diffuser Actor 的神经策略体系结构，它在给定语言指令的情况下构建视觉场景的 3D 表示，并在此基础上迭代性地对机器人的末端执行器进行 3D 旋转和平移噪声去除。通过实验验证，我们的模型在机器人学习领域取得了显著的性能提升。

Feb, 2024

三维扩散策略

3D Diffusion Policy (DP3) is a novel visual imitation learning approach that incorporates 3D visual representations to teach robots dexterous skills, demonstrating precise control, high success rates, and excellent generalization abilities, while rarely violating safety requirements in real-world robot learning.

Mar, 2024

扩散模型是多任务强化学习中有效的规划器和数据生成器

本文提出了一种基于 Transformers 和 prompt 学习的多任务扩散模型 MTDiff，利用扩散模型生成计划和数据合成，实现了跨不同多任务数据之间的隐式知识共享，并在 Meta-World 和 Maze2D 上的 50 个任务和 8 个地图中，达到了比现有算法更好的生成计划效果。

May, 2023

单级扩散 NeRF：一种统一的三维生成和重建方法

本文提出了一种称为 SSDNeRF 的新方法，它使用表达能力强的 Diffusion Model 从多视图图像中学习神经辐射场（NeRF）的可推广先验，实现 3D 重建和先验学习的同时，证明了该方法在无条件生成和单 / 稀疏视图 3D 重建等任务上具有与任务特定方法媲美或优于其的鲁棒性结果。

Apr, 2023

DiffusionAct：可控的一次性人脸仿真的扩散自编码器

DiffusionAct 是一种利用扩散模型的照片级真实图像生成来进行神经脸部再现的新方法，能够编辑输入图像的脸部姿势，实现一次性、自我和跨主体再现，并展示了优于甚至与 GAN、StyleGAN2 和扩散方法相媲美的再现性能。

Mar, 2024

文字图像条件扩散用于一致的文字到 3D 生成

通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化 NeRF 表示，该方法通过预训练的文本条件的二维扩散模型（例如 ImData）监督 NeRF 优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入 NeRF 优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Dec, 2023

NeRDi: 基于语言引导扩散的单视角 NeRF 综合技术作为通用图像先验

提出 NeRDi—— 一种基于 2D 扩散模型通用图像先验的单视角 NeRF 综合框架，借助自然语言模型引导扩散模型进行图像合成，结合估算的深度图的几何约束，优化重建的 NeRF 表示，进而实现高质量的全景图像生成。

Dec, 2022

神经资产：具有 3D 感知多目标场景合成的图像扩散模型

通过使用神经资产（Neural Assets）控制场景中各个对象的三维姿势，我们提出了一种解决图像扩散模型中多对象三维姿势控制问题的方法，通过将目标帧的对象姿势作为条件编码到参考图像的对象视觉表示中，实现了外观与姿势特征的分离，并结合现有模型的文本到图像架构，使得我们的方法能够对场景中的每个对象进行精细的三维姿势和放置控制，通过在预训练的文本到图像扩散模型中微调这些信息，我们的模型在合成三维场景数据集和两个真实世界视频数据集（Objectron, Waymo Open）上实现了最新的多对象编辑结果。

Jun, 2024

面具扩散 + 任务感知：教学视频中的程序规划

在教学视频的程序规划中，处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容，人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型，并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的动作序列。最近，通过集成扩散模型和视觉表示学习取得了显著进展来应对这一挑战。然而，现有模型使用了基本机制来利用任务信息来管理决策空间。为了克服这个限制，我们引入了一种简单而有效的增强方法 - 掩蔽扩散模型。引入的掩蔽机制类似于一种面向任务的注意力过滤器，使得扩散 / 去噪过程能够集中在一部分动作类型上。此外，为了增强任务分类的准确性，我们采用了更强大的视觉表示学习技术。特别地，我们学习了一个联合视觉 - 文本嵌入，其中文本嵌入是通过提示一个预先训练的视觉 - 语言模型关注人类动作来生成的。我们在三个公共数据集上评估了该方法，并在多个指标上取得了最先进的性能。

Sep, 2023

从头学习多模态行为的扩散策略梯度

本研究提出了深度扩散策略梯度（DDiffPG）算法，它能够学习参数化为扩散模型的多模态策略，并通过聚类和内在动机探索来发现和维持多样化行为，同时减少强化学习的贪婪性质，实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明，该算法在复杂的高维连续控制任务中能够掌握多模态行为，并展示了在导航未知障碍迷宫中的动态在线重新规划的概念验证。

Jun, 2024