深度强化学习中的机械臂控制和抓取行为模仿

May, 2024

深度强化学习中的机械臂控制和抓取行为模仿

Behavior Imitation for Manipulator Control and Grasping with Deep Reinforcement Learning

Liu Qiyuan

TL;DR本研究提出了一种采用 3D 人体姿态估计和强化学习相结合的新型运动模仿模型，通过将运动模仿转化为强化学习中的关节角度预测问题，从而极大减少了对大量训练数据的依赖，使得模型能够从仅有几秒钟的视频中学习模仿策略，并展现出强大的泛化能力。该项目可轻松地将人的手臂运动模仿到机械手臂上，表现出卓越的性能和稳健的迁移能力。

Abstract

The existing motion imitation models typically require expert data obtained through MoCap devices, but the vast amount of training data needed is difficult to acquire, necessitating substantial investments of financial resources, manpower, and time. This project combines →

motion imitation reinforcement learning 3d human pose estimation imitation policy transferability

发现论文，激发创造

通过对抗性模仿从动作捕捉学习人类行为

本文介绍应用生成对抗性模仿学习方法，通过有限的高维仿人体运动演示数据，训练神经网络策略以产生类人的运动模式，并利用该方法构建子技能策略解决高维身体姿态控制任务。

Jul, 2017

人体姿态预测的模仿学习

提出了一种新的基于增强学习的姿势预测模型，结合行为克隆和生成对抗学习，通过这种模型对未来的人体姿势进行预测，实验结果表明该模型在短期和长期预测方面优于现有方法。

Sep, 2019

基于 GPU 仿真和高质量演示的交互式人类样学习加速

利用 GPU 模拟技术和模仿学习指导策略搜索以使强化学习培训可在高维机器人手表现复杂控制问题的领域中成为可能，最终演示了并行强化学习和模仿学习的互补优势和优秀的验证结果。

Dec, 2022

针对多样化视觉动作技能的强化学习和模仿学习

该研究提出了一种模型无关的深度强化学习方法，利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉 - 动力学策略，直接从 RGB 相机输入到关节速度。实验结果表明，与仅使用强化学习或模仿学习训练代理的结果相比，作者的强化和模仿代理取得了显著的性能提高。此外，这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。

Feb, 2018

I-CTRL：基于约束强化学习的仿真控制人形机器人

本文介绍了一种通过有约束的强化学习算法实现对双足机器人进行基于物理的高质量动作模仿的框架，强调将视觉和物理现实性相结合对于成功实现动作模仿的重要性。

May, 2024

无监督动作转换用于人机模仿

早期研究旨在通过将人类动作领域中的关节位置序列转化为给定机器人能够实现且受其体现约束的动作领域，从而改进在线人机模仿技术。通过提出一个编码器 - 解码器神经网络模型进行领域转换，利用深度学习方法的泛化能力来解决这个问题。为了训练这样的模型，可以使用与机器人和人类动作相关联的配对数据，然而这样的数据在实践中非常稀少且收集费时。因此，我们转向了无配对领域转换的深度学习方法，并将其改进以实现人机模仿。

Jan, 2024

基于表示学习的自然机器人手臂轨迹生成

通过自我监督的模仿学习方法，使用自回归时空图神经网络进行辅助饮水任务，利用多样化的人体运动轨迹数据来生成适合 UR5e 机器臂的自然而又功能性的饮水运动轨迹。

Sep, 2023

基于深度模仿学习的虚拟现实远程操作复杂操纵任务

本文介绍了如何利用消费级虚拟现实头显和手部追踪硬件来自然地远程操纵机器人执行复杂任务，并说明了如何使用仿真学习来学习从像素到动作的策略映射。实验展示了我们方法在视觉动作技能学习上的有效性。

Oct, 2017

深度 Q-Learning 机器人臂控制的 3D 模拟

该研究旨在使用深度强化学习算法，通过在模拟环境中训练机器人臂完成定位和抓取方块的任务，进而实现在真实场景下机器人控制的无缝转移，并设计了结构化奖励函数以提高训练效率。

Sep, 2016

面向任务的手部运动重新定位用于熟练操控模仿

使用手势姿态估计器采集到的人手信息，结合逆运动学和 PSO 算法解决手姿态到 29 个自由度手模型的映射问题，以增加进行虚拟物体操作任务成功率，进而使用全部操作过程数据通过生成对抗性模仿学习训练出可用于虚拟现实中的抓握策略网络。

Oct, 2018