多目标强化学习：挑战机器人环境与研究请求

Feb, 2018

多目标强化学习：挑战机器人环境与研究请求

Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research

Matthias Plappert, Marcin Andrychowicz, Alex Ray, Bob McGrew, Bowen Baker...

TL;DR介绍了一组具有挑战性的连续控制任务，并提出了许多改进强化学习算法的研究思路。

Abstract

The purpose of this technical report is two-fold. First of all, it introduces a suite of challenging continuous control tasks (integrated with OpenAI Gym) based on currently existing robotics hardware. The tasks

continuous control tasks robotics hardware reinforcement learning multi-goal rl hindsight experience replay

发现论文，激发创造

增强机器人导航：单一和多目标强化学习策略的评估

本研究通过比较分析单目标和多目标强化学习方法，针对训练机器人在有效避开障碍物的同时有效地导航到目标的问题进行探究。传统的强化学习技术，包括深度 Q 网络（DQN），深度确定性策略梯度（DDPG）和双延迟 DDPG（TD3），在 Gazebo 仿真框架中以随机目标和机器人初始位置等参数在不同环境中进行了评估。然而，在存在多个潜在冲突目标的复杂环境中，这些方法的局限性显现。为了解决这些局限性，我们提出了一种采用多目标强化学习（MORL）的方法。通过修改奖励函数返回一系列与不同目标相关的奖励向量，机器人学习了一种能够平衡不同目标的策略，旨在实现帕累托最优解。这项比较研究凸显了 MORL 在复杂、动态的机器人导航任务中的潜力，为进一步研究可适应性和实用性更强的机器人行为奠定了基础。

Dec, 2023

机器人强化学习简介

本文旨在介绍强化学习在机器人自主行动和控制方面的应用，同时关注问题的关键挑战和未来研究方向。

Oct, 2022

物理嵌入式规划问题：强化学习的新挑战

通过在物理引擎中嵌入具有挑战性的符号任务（Sokoban，井字棋和围棋），引出了一组需要长时间视觉、推理和电机控制的任务，研究了现有的强化学习算法在这样的物理系统中的表现。同时，研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示，缩小抽象规划和物体控制之间的差距的方案。

Sep, 2020

机器人多目标强化学习中基于回顾的指令实现

本文提出使用机器人强化学习来学习自然语言目标表示的问题。通过提出回顾指令重播机制、seq2seq 模型和基于语言的学习任务，解决了自然语言的组合性和触觉数据和行为之间的联系问题，并展示了学习性能的提高。

Apr, 2022

ReProHRL: 多目标导航中的层级代理在真实环境中的应用

我们提出了一种名为 Ready for Production Hierarchical RL（ReProHRL）的方法，它通过强化学习来划分具有层次结构的多目标导航任务，并使用物体检测器作为预处理步骤来学习多目标导航并将其转移到真实世界中，实证结果表明，所提出的 ReProHRL 方法在模拟和真实环境中的训练时间和性能方面均优于最先进的基线方法。

Aug, 2023

目标驱动的模仿学习

通过整合演示（demonstrations）的方法，本研究探讨如何加速强化学习的收敛速度，以达到能够到达任何目标的策略，并且在与其他模仿学习算法训练的代理相比表现更好。

Jun, 2019

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

用深度强化学习训练机器人的方法：我们所学到的教训

本文评估了深度强化学习在现实世界机器人中的应用，包括学习知觉和运动等复杂技能的案例研究以及相关挑战。

Feb, 2021

基于情境的自监督机器人学习中的虚拟目标

研究了机器人如何通过无监督学习和条件目标设定模型自主地学习和实践行为，从而掌握丰富的技能和处理不同的任务和环境。

Oct, 2019

使用强化学习创建动态四足机器人守门员

我们提出了一个基于强化学习的框架，使得四足机器人在真实世界中执行足球门将任务。

Oct, 2022