使用深度强化学习学习运动技能：行动空间选择的影响

Nov, 2016

使用深度强化学习学习运动技能：行动空间选择的影响

Learning Locomotion Skills Using DeepRL: Does the Choice of Action Space Matter?

Xue Bin Peng, Michiel van de Panne

TL;DR本文研究了用于高维状态描述的深度强化学习，并比较了不同的动作参数表示对学习难度、策略鲁棒性、运动质量和策略查询率的影响。从多个平面关节图形和多个步态的步态循环模仿任务的结果来看，本文表明较高级别的动作参数化所提供的本地反馈可以显著影响策略的学习、鲁棒性和质量。

Abstract

The use of deep reinforcement learning allows for high-dimensional state descriptors, but little is known about how the choice of action representation impacts the learning difficulty and the resulting performanc

deep reinforcement learning action parameterizations learning difficulty policy robustness motion quality

发现论文，激发创造

学会运动：理解环境设计对于深度强化学习的影响

本文探究了深度强化学习与基于物理原理的动画学习中的 RL 环境设计对其表现的影响及如何通过状态表示、奖励结构等因素的选择优化其效果，特别强调其对学习连续动作控制问题的应用的重要性。

Oct, 2020

机器人操作学习和仿真到真实世界转移中的动作空间作用

我们研究了机器人操作学习和从仿真到实际的转移中的行动空间选择。我们定义了评估性能的度量标准，并研究了不同行动空间的新兴特性。我们使用 13 种不同的控制空间，在模拟的抓取和推动任务中训练了超过 250 个强化学习代理。行动空间的选择涵盖了文献中的热门选择以及常见设计特征的新组合。我们对仿真中的训练性能以及向实际环境的转移进行了评估。我们确认了机器人行动空间的优点和缺点，并对未来设计提出了建议。我们的发现对于机器人操作任务的强化学习算法设计具有重要意义，并强调了在训练和转移强化学习代理时对行动空间的慎重考虑的必要性。

Dec, 2023

多任务策略训练中的简单自发行为表示

该论文研究了深度强化学习中低级感知和运动信号的表示方法，提出通过多任务策略网络输入状态和任务嵌入的方法得到有意义的运动表示空间，并在此基础上进行高级别指令的执行规划，实验结果表明该方法优于现有强基线方法，具有较强的任务适应能力。

Oct, 2022

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

研究选择对于深度强化学习在航天控制中的影响

该论文研究了使用离散动作空间，以及探索选择提供给智能体数量对其在训练期间和之后的表现的影响，针对检查任务和停靠任务的需求。结果显示对于检查任务，有限数量的离散选择导致最佳性能，而对于停靠任务，连续控制导致最佳性能。

May, 2024

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022

识别学习运动技能的重要感觉反馈

使用深度强化学习，通过神经网络作为状态 - 动作映射，通过量化分析系统显著性分析来确定机器人学习的关键状态以实现迈步技能学习，其中包括平衡恢复，慢跑，奔跑，步态和奔跑。

Jun, 2023

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

末端执行器空间中的可变阻抗控制：接触丰富任务中的强化学习动作空间

本文研究了深度强化学习中不同行为空间的影响，提出了在约束和接触丰富任务中具有优势的终端执行器空间下的可变阻抗控制（VICES）。通过在三个典型的操作任务中评估多个动作空间，表明 VICES 提高了样本效率，在所有三个实验设置中保持低能量消耗，并确保安全。

Jun, 2019