纯粹确定性策略优化
该研究提出了一种非参数学习的策略,通过嵌入策略分布作为非递减的欧几里得空间中的特征,从而允许其搜索空间在非常高(可能无限)维的 RKHS(再生核希尔伯特空间)中定义。同时,通过在 RKHS 中计算的相似度度量,与 Adaptive H 技术相结合,实现优化动态环境下自主适应的最佳控制策略的非参数学习方法。实验证明,该方法在多个基准测试和一个配备动态变化环境的仿真机器人基准测试中优于 DDPG 和 TD3 方法。
Mar, 2022
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
通过比较基于动作和基于参数的探索,本论文介绍了一种理论框架以及对全局收敛性的研究,用于理解强化学习中连续问题的策略梯度方法,可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。
May, 2024
本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程(TMDPs)的策略梯度定理及其实现,进一步扩展了 TMDPs 在面对多种复杂问题方面的应用,提出了一种针对多目标导航问题的新算法,并在模拟环境和实际机器人上进行了演示。
Sep, 2022
该论文提出一种基于轨迹的无模型策略优化算法,使用局部二次时间相关 q 函数学习从轨迹数据中反向传播而来,计算准确的 KL 约束满足,实验结果表明与线性化系统动态的方法相比,在高度非线性的控制任务中,我们的算法性能有了显著提高且有保证的单调性改进。
Jun, 2016
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
通过将可微分环境的解析梯度与 Proximal Policy Optimization(PPO)算法相结合,我们引入了一种新颖的策略学习方法。通过自适应修改 alpha 值,我们可以有效管理学习过程中解析策略梯度的影响,并提出了评估解析梯度方差和偏差的度量标准,在检测到高方差或偏差时减少对这些梯度的依赖。我们的方法在函数优化、物理模拟和交通控制环境等各种场景中胜过基准算法。
Dec, 2023
本文研究了在线性策略的类别中,基于无导数法的策略优化方法。研究了不同的驱动噪声和奖励反馈设置,特别是应用于线性二次系统时的收敛速度,发现这些方法会在求解问题的误差、维度和曲率特性的确定的多项式次零阶求解下收敛至最优解水平,并发现了不同驱动噪声和奖励反馈设置下的一些有趣差异,最终在对这些系统进行广泛的模拟验证下进行计算。此外,我们也研究了基于零阶优化算法的随机非凸问题的收敛速度。
Dec, 2018
本文旨在提高多智能体控制的数据效率,采用基于模型的学习方式,通过多个代理通过本地通信进行合作完成任务,实现分散的基于模型的策略优化框架,提出了扩展的价值函数,理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似,并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。
Jul, 2022