物理嵌入式规划问题：强化学习的新挑战

Sep, 2020

物理嵌入式规划问题：强化学习的新挑战

Physically Embedded Planning Problems: New Challenges for Reinforcement Learning

Mehdi Mirza, Andrew Jaegle, Jonathan J. Hunt, Arthur Guez, Saran Tunyasuvunakool...

TL;DR通过在物理引擎中嵌入具有挑战性的符号任务（Sokoban，井字棋和围棋），引出了一组需要长时间视觉、推理和电机控制的任务，研究了现有的强化学习算法在这样的物理系统中的表现。同时，研究提出了使用预训练的专家游戏玩家为强化学习提供有用提示，缩小抽象规划和物体控制之间的差距的方案。

Abstract

Recent work in deep reinforcement learning (RL) has produced algorithms capable of mastering challenging games such as Go, chess, or shogi. In these works the RL agent directly observes the natural state of the game and controls that state directly with its actions. However, when human

deep reinforcement learning physically embedded planning problems perception reasoning motor control

发现论文，激发创造

用深度强化学习训练机器人的方法：我们所学到的教训

本文评估了深度强化学习在现实世界机器人中的应用，包括学习知觉和运动等复杂技能的案例研究以及相关挑战。

Feb, 2021

生物和机器人系统无模型强化学习的深入研究：理论与实践

动物和机器人存在于物理世界中，并必须协调其身体以实现行为目标。最近在深度强化学习方面的发展使得科学家和工程师可以利用物理模拟的身体和环境来获得特定任务的感觉运动策略（策略）。然而，这些方法的效用超出了特定任务的限制；它们为理解动物感觉运动系统与其形态和与环境的物理相互作用的组织提供了一个令人兴奋的框架，同时也可为机器人系统中感知和执行的一般设计规则的推导提供支持。通过使用深度强化学习中的 extit {演员 - 评论家} 方法，我们在这里提出数学和算法方面的简洁阐述作为研究动物和机器人行为背后的反馈控制的工具。

May, 2024

多目标强化学习：挑战机器人环境与研究请求

介绍了一组具有挑战性的连续控制任务，并提出了许多改进强化学习算法的研究思路。

Feb, 2018

现实世界强化学习挑战的经验研究

本文针对强化学习在实际问题中难以部署的问题，提出了一系列的挑战，并通过 Markov 决策过程定义这些挑战并分析其影响，同时探讨了一些现有的解决方法。为了验证算法的可部署性，我们提出并开源了 realworldrl-suite 套件作为一个基准测试集。

Mar, 2020

非抓取性操作的强化学习：从仿真到物理系统的转移

本研究使用一种修改自然策略梯度算法的模型，通过模拟学习并训练，成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中，并证明使用多个模型训练可以使学习到的策略更加稳健，从而弥补了系统识别的困难。

Mar, 2018

从语义到执行：将动作规划与强化学习相结合，用于机器人因果问题解决

本文介绍了一种基于奖励稀疏性的桥梁方法，将符号行动计划和强化学习相结合，以解决在噪声条件下涉及工具使用和复杂因果依赖的对象操作问题，并成功利用了数据和知识。

May, 2019

利用强化学习进行神经运动规划

本研究通过比较监督式学习与强化学习算法，提出了一个适用于动作规划领域的 DDPG-MP 算法，该算法有助于解决运动规划中数据不足的问题，并在新领域的规划中实现了较快速度。

Jun, 2019

解决组合复杂度高的长视界深度强化学习任务的挑战

通过提出一系列机器人任务，不需要额外的专业探索便可解决的优化问题，研究发现标准强化学习方法往往由于折扣而忽视长期影响，而通用层次强化学习方法则需要额外的抽象领域知识。

Jun, 2022

指导技能学习和抽象以实现长远操纵

LEAGUE 是一种集成任务计划和技能学习框架，利用任务计划器的符号界面指导基于深度强化学习的技能学习，同时创建抽象状态空间以实现技能重用，并可以在任务计划系统内学习操作技能，不断提高其能力并解决更多任务。

Oct, 2022

回放缓存搜索：连接计划和强化学习

我们介绍了一种结合规划算法和强化学习的通用控制算法，称为搜索回放缓冲（SoRB），可以自动生成子目标序列并解决高维度的长期任务。

Jun, 2019