Mar, 2024

DNAct:扩散引导的多任务三维策略学习

TL;DR本文介绍了 DNAct,一种语言驱动的多任务策略框架。该框架集成了神经渲染预训练和扩散训练,以在动作序列空间中实现多模态学习。通过利用神经渲染从基础模型中提取二维语义特征并转化到三维空间,DNAct 可以对场景进行全面的语义理解,从而适用于需要丰富三维语义和准确几何信息的各种挑战性机器人任务。此外,通过扩散训练学习视觉和语言特征, DNAct 能够区分不同任务的多模态特征从而提高学习表示的鲁棒性和泛化性能。与现有的基于 NeRF 的多任务操作方法相比,DNAct 在成功率上有 30% 以上的改进。