复杂动作空间中的学习与规划

Apr, 2021

Learning and Planning in Complex Action Spaces

Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt...

TL;DR本文提出了一个基于策略迭代的通用框架，可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中，样本化 MuZero 是 MuZero 算法的一个扩展，可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。

Abstract

Many important real-world problems have action spaces that are high-dimensional, continuous or both, making full enumeration of all possible actions infeasible. Instead, only small subsets of actions can be sampled for the purpose of policy evaluation and improvement. In this paper, we

reinforcement learning policy evaluation sampled action subsets muzero algorithm continuous control

发现论文，激发创造

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019

A0C：连续动作空间中的 Alpha Zero

该研究论文介绍了如何将 Alpha Zero 的算法模型用于连续动作域的强化学习问题，并给出了针对摆钟摆问题的初步实验结果，为在连续动作域下应用 Alpha Zero 算法模型提供了理论基础和有效性证明。

May, 2018

想象中的规划：基于学习生成的抽象搜索空间的高级规划

我们提出了一种名为 PiZero 的新方法，使代理能够在完全与真实环境脱节的自主创建的抽象搜索空间中进行规划。与之前的方法不同，这使得代理能够在任意时间尺度上进行高层规划，并以复合或时间扩展的动作形式进行推理，这在需要执行大量基础微动作来执行相关宏动作的环境中非常有用。此外，我们的方法比可比较的之前方法更通用，因为它处理具有连续动作空间和部分可观察性的设置。我们在多个领域，包括导航任务和 Sokoban，对我们的方法进行了评估。实验结果表明，我们的方法在没有假设访问环境模拟器的情况下，优于可比较的之前方法。

Aug, 2023

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

连续状态和行动空间中强化学习的几何学

使用几何镜头建立对连续状态和动作空间的理论理解，以证明可达状态的低维流形的维度最多为动作空间维度加一，并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。

Dec, 2022

机器人操作学习和仿真到真实世界转移中的动作空间作用

我们研究了机器人操作学习和从仿真到实际的转移中的行动空间选择。我们定义了评估性能的度量标准，并研究了不同行动空间的新兴特性。我们使用 13 种不同的控制空间，在模拟的抓取和推动任务中训练了超过 250 个强化学习代理。行动空间的选择涵盖了文献中的热门选择以及常见设计特征的新组合。我们对仿真中的训练性能以及向实际环境的转移进行了评估。我们确认了机器人行动空间的优点和缺点，并对未来设计提出了建议。我们的发现对于机器人操作任务的强化学习算法设计具有重要意义，并强调了在训练和转移强化学习代理时对行动空间的慎重考虑的必要性。

Dec, 2023

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

有效离线策略评估学习策略

研究提出了一种新型的强化学习框架，采用高级别动作空间，包括一组等效的任意长度的动作序列，能够提高强化学习的效率和计算效率。在两个最先进的离策略算法中应用该框架，实验证明，该框架能够使代理在每一集与环境打交道的次数更少，从而提高性能。

Jun, 2021

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022