扩大行动空间

Jun, 2019

Growing Action Spaces

Gregory Farquhar, Laura Gustafson, Zeming Lin, Shimon Whiteson, Nicolas Usunier...

TL;DR使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Abstract

In complex tasks, such as those with large combinatorial action spaces, random exploration may be too inefficient to achieve meaningful learning progress. In this work, we use a curriculum of progressively growing action spaces to accelerate learning. We assume the environment is out o

curriculum learning reinforcement learning action spaces transfer learning multi-agent systems

发现论文，激发创造

复杂动作空间中的学习与规划

本文提出了一个基于策略迭代的通用框架，可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中，样本化 MuZero 是 MuZero 算法的一个扩展，可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。

Apr, 2021

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

有效离线策略评估学习策略

研究提出了一种新型的强化学习框架，采用高级别动作空间，包括一组等效的任意长度的动作序列，能够提高强化学习的效率和计算效率。在两个最先进的离策略算法中应用该框架，实验证明，该框架能够使代理在每一集与环境打交道的次数更少，从而提高性能。

Jun, 2021

组合动作空间中的高效规划及其在合作多智能体强化学习中的应用

本篇研究论文是关于如何在具有组合行动空间的多智能体强化学习中，通过访问 argmax oracle 并建立在线模拟和线性函数逼近的最小要求，提出了一种高效的算法，以在所有相关问题参数的多项式计算和查询复杂度内实现计划。

Feb, 2023

残差技能策略：学习适应性技能基础的动作空间，用于机器人增强学习

通过使用状态条件生成模型在技能空间中加速探索，同时提出低层次的剩余策略来适应未知的任务变化，从而在与先前工作的比较中显着加快了探索速度，并跨四个不同于那些用于构建技能空间的具有挑战性的操作任务进行了验证。

Nov, 2022

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

机器人操作学习和仿真到真实世界转移中的动作空间作用

我们研究了机器人操作学习和从仿真到实际的转移中的行动空间选择。我们定义了评估性能的度量标准，并研究了不同行动空间的新兴特性。我们使用 13 种不同的控制空间，在模拟的抓取和推动任务中训练了超过 250 个强化学习代理。行动空间的选择涵盖了文献中的热门选择以及常见设计特征的新组合。我们对仿真中的训练性能以及向实际环境的转移进行了评估。我们确认了机器人行动空间的优点和缺点，并对未来设计提出了建议。我们的发现对于机器人操作任务的强化学习算法设计具有重要意义，并强调了在训练和转移强化学习代理时对行动空间的慎重考虑的必要性。

Dec, 2023

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015