视觉-语言-动作模型与扩散策略切换实现类人手灵巧控制

Oct, 2024

视觉-语言-动作模型与扩散策略切换实现类人手灵巧控制

Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand

Cheng Pan, Kai Junge, Josie Hughes

TL;DR本研究解决了自主灵巧操作中的模型切换问题。通过结合视觉-语言-动作(VLA)模型与扩散模型，提出了一种新颖的混合控制方法，实现高层次语言指令规划与低层次精确操作间的灵活切换。实验结果表明，该方法在抓取和放置任务中成功率超过80%，显著优于仅使用VLA模型时不到40%的成功率。

Abstract

To advance autonomous Dexterous Manipulation, we propose a hybrid control method that combines the relative advantages of a fine-tuned Vision-Language-Action (VLA) model and →

发现论文，激发创造

使用深度强化学习和演示学习复杂的手部操作技能

本研究展示了无模型深度强化学习可有效扩展到高维复杂操作任务，并通过少量人工演示显著降低样本复杂度，从而使学习具有与机器人体验几个小时相当的样本量，展示出非常自然的动作并且更加稳健。

Sep, 2017

深度强化学习下的灵巧操作：高效、通用和低成本

本文提出使用深度强化学习作为一种可扩展的解决方案，来掌握带有多指手的接触丰富行为，并展示使用模型自由的深度强化学习算法在现实世界中可以学习各种复杂的行为，同时可以通过少量的人类演示来加速学习。

Oct, 2018

深度动态模型用于学习灵巧操作

本文介绍了一种在线规划深度动力学模型的方法，通过这种方法，使用少量真实世界的数据即可进行柔性接触的灵巧操作技能的有效学习，并成功应用于24个自由度类人手上。

Sep, 2019

利用物体中心的视觉可承受能力学习巧妙抓握

本研究介绍了一种在深度强化学习循环中嵌入面向对象视觉助力模型的方法，以学习优先选择与人类喜欢的对象区域相同的抓握策略，实现对物体的灵活抓握能力。通过40个物体的实验，表明该方法可以显著提高抓握策略效能，泛化能力较强，比普通基线方法的训练速度更快，且更能适应噪声传感器。

Sep, 2020

基于图像的熟练操作：通过细化引导实现自主现实世界强化学习

本文提出了一种基于视觉的程序自由编程的方法，利用强化学习实现复杂多指手势下的实物操作，无需手动建模或奖励工程。

Dec, 2022

连续灵巧性：将灵巧策略链接起来实现长程操纵

基于强化学习的连续灵巧系统，通过链式连接多个灵巧策略来实现长期目标，克服了任务空间维度高和复杂的动力学组合的挑战，并且能够在现实世界中应用于装备有灵巧手的机器人。

Sep, 2023

跨体现灵巧抓握的强化学习

本研究针对现有机器人手控制政策局限，提出了一种通用的抓握策略，实现对不同灵巧机器手的有效控制。通过模拟人手的控制方式，我们提出了一种基于人手特征抓握的统一动作空间，实验结果显示该方法在不同体现上实现了80%的成功率并具有良好的零-shot 泛化能力。

Oct, 2024

从示范中学习扩散策略以实现顺应接触密集的操作

本研究针对机器人在接触密集和动态环境中缺乏人类灵活性的问题，提出了一种名为DIPCOM的扩散策略框架，用于顺应控制任务。通过多模态分布建模和生成扩散模型，该方法有效提高了机器人在任务中的力控制能力，并在真实任务中验证了其有效性。

Oct, 2024

DexDiffuser：针对自适应灵巧操作的交互-aware扩散规划

本研究解决了现有扩散规划方法在复杂交互中的适应性不足和虚假状态产生的问题。我们提出的DexDiffuser框架通过双阶段扩散过程建模联合状态-动作动态，结合大语言模型生成的自动化引导功能，实现了对物理交互的高通用性和多样化目标的适应。实验表明，DexDiffuser在多个任务中成功率显著优于现有方法，展示了其在接触丰富操作中的鲁棒性和灵活性。

Nov, 2024

基于模态驱动的多步骤灵巧操控设计：来自神经科学的启示

本研究针对多步骤灵巧操控在机器人领域的不足，提出了一种模块化的方法，针对每一个操作步骤采用有效的模态输入制定专门策略，而非依赖单一的端到端模型。通过神经科学的启示，任务被分解为三个子技能，并在真实机器人上进行了测试，展示了研究方法的可行性，具有重要的应用潜力。

Dec, 2024