具有自适应分层课程的多阶段多目标手指灵巧操纵

May, 2022

具有自适应分层课程的多阶段多目标手指灵巧操纵

Multi-Phase Multi-Objective Dexterous Manipulation with Adaptive Hierarchical Curriculum

Lingfeng Tao, Jiucai Zhang, Xiaoli Zhang

TL;DR本研究提出了一种新的自适应分层奖励机制 (AHRM)，可以解决机器人在学习掌握多目标任务时，具有多个目标且优先级可能在不同阶段发生变化的情况下，无法以深度强化学习方法学习最佳策略的问题。实验结果表明，所提出的方法在多目标操作任务的 JACO 机械臂中能够提高机器人的学习效率和任务性能。

Abstract

dexterous manipulation tasks usually have multiple objectives, and the priorities of these objectives may vary at different phases of a manipulation task. Varying priority makes a robot hardly or even failed to learn an optimal policy with a →

dexterous manipulation deep reinforcement learning adaptive hierarchical reward mechanism multi-objective task robotic arm

发现论文，激发创造

物理引导的分层奖励机制用于学习式物体抓取

本文提出了基于物理引导的深度强化学习方法用于改善学习效率和推广性，在多指机器人手势能力的数据集上进行测试，结果表明，该方法在任务性能方面优于标准深度强化学习方法 48% 和学习效率 40%。

May, 2022

使用参数化操作基元学习外在灵巧性

通过学习层次化强化学习，我们能够利用环境改变目标物体的姿态，无需物体检测、姿态估计或手动设计控制器，从而成功地完成 98% 的实验任务。

Oct, 2023

使用深度强化学习和演示学习复杂的手部操作技能

本研究展示了无模型深度强化学习可有效扩展到高维复杂操作任务，并通过少量人工演示显著降低样本复杂度，从而使学习具有与机器人体验几个小时相当的样本量，展示出非常自然的动作并且更加稳健。

Sep, 2017

基于图像的熟练操作：通过细化引导实现自主现实世界强化学习

本文提出了一种基于视觉的程序自由编程的方法，利用强化学习实现复杂多指手势下的实物操作，无需手动建模或奖励工程。

Dec, 2022

采用分层式 Sim2Real 实现的多智能体运动操控

采用强化学习方法通过层次性模拟实现在多移动机器人协作下的操纵行为。

Aug, 2019

移动机器人多目标协作交互式搜索层次学习

本文介绍了一种新颖的交互式多对象搜索任务，并提出了一种层次强化学习方法，学习探索、导航和操作技能，该方法在模拟和实际的实验中展示了零样本迁移和对不同机器人运动学的适应性。

Jul, 2023

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023

多目标马尔可夫决策过程中的内在动机分层策略学习

通过采用内在动机驱动的强化学习方法来演化出一套通用的技能集，以解决多目标马尔科夫决策过程，从而克服了在非稳态环境中无法泛化的问题。实验证明，该方法在动态机器人环境中明显优于现有的多目标强化学习方法。

Aug, 2023

多智能体强化学习与奖励机器的层次

本文研究利用奖励机器（RMs）来指定奖励函数，从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习（MARL）问题。我们提出了具有层次结构的高级事件的多智能体强化学习（MAHRM），能够应对多智能体之间事件可以并发发生且代理具有高度相互依赖的复杂情况，通过分解任务为一系列更简单的子任务，并分配给少量智能体来减少整体计算复杂性。在三个合作 MARL 领域的实验结果表明，MAHRM 在使用相同的高级事件先前知识时优于其他 MARL 方法。

Mar, 2024

在动态共享的 3D 空间中学习操控任务

提出了一种深度强化学习策略，旨在通过引入协作自主系统（例如操纵器）在工作场所和人操作员之间高效地学习多类别物品从共享工作空间到多目标目的地的放置任务。

Apr, 2024