通用强化学习中大规模动作空间的精确缩减
本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习(RL)问题,引入了新的方法将函数逼近与此方法相结合,从而完全不需要使用显式策略参数化。此外,还提出了一种新的政策对偶平均方法,其中可能可以应用更简单的函数逼近技术。在精确策略评估下,我们将这些方法应用于解决不同类别的 RL 问题,为这些方法的全局最优性或局部最优性建立线性收敛速度,探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知,这些算法框架的开发以及它们的收敛分析似乎是文献中新的。
Nov, 2022
本文提出了一种解决高维情况下强化学习中的状态和行动指数级增长问题的方法:通过学习具有动作上相似的马尔可夫决策过程的内在结构,以适当平衡性能退化与样本 / 计算复杂度之间的关系,并提出了一种基于线性分解模型的分组策略以最小化总体性能损失。
Jun, 2023
使用几何镜头建立对连续状态和动作空间的理论理解,以证明可达状态的低维流形的维度最多为动作空间维度加一,并且通过使用 DDPG 的深度神经网络训练出的低维度表示策略学习表现良好。
Dec, 2022
使用课程学习和跨行动空间的迁移学习来加速强化学习,通过限制其初始行动空间,同时为多个行动空间估算最优值函数,并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上,成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。
Jun, 2019
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
通过扩展 Extreme State Aggregation(ESA)框架到联合状态 - 动作聚合,同时解除 ESA 中聚合的策略统一性条件,可以实现更粗糙的真实环境建模,进而将更多状态聚合起来,即使状态空间复杂庞大,也可以保证近乎最优的性能。
Nov, 2018
我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态 - 动作空间的设置,并展示了简单的策略梯度法的样本复杂度。
Jun, 2023
本篇论文针对强化学习中的安全探索这一问题,提出 PI-SRL 算法在解决复杂任务,包括汽车停车、极杆平衡、直升机悬停和商业管理等方面具有安全性和高效性的优秀表现。
Feb, 2014