连续强化学习的策略优化
提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架,命名为差分策略优化(DPO)。DPO 是一种点对点和阶段对阶段迭代方法,通过本地运动算子编码的策略进行优化,具有可扩展性,且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。
Apr, 2024
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
本文介绍了一种名为 Robust Policy Optimization 的算法,该算法应用于强化学习中,利用扰动分布来提高策略的熵,提高探索性能,取得了比 PPO 等算法更好的性能表现,并在多个环境中表现出鲁棒性能。
Dec, 2022
通过使用泊松时钟模型与连续时间,本研究旨在克服强化学习中离散时间与离散状态的局限性,并且提出了一个算法来应对连续时间下的学习和规划任务,其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。
Sep, 2023
本文提出了一种名为 Quantile-Based Policy Optimization(QPO)的 RL 算法,与原有算法相比在 quantile 目标的情况下表现更好,算法使用神经网络对策略进行参数化,同时使用两个相互耦合的迭代来估计量位和策略参数。
Jan, 2022
在这篇论文中,我们提出了一种新的算法,它通过一种接近性项稳定了策略改进,并限制由连续策略引发的折扣状态行动访问分布彼此接近,并通过离线训练和对抗性学习的方式学习这种接近性项。我们在基准高维控制任务中实证表明,我们提出的方法可以对稳定性产生有益影响,并提高最终性能.
Mar, 2020
本文研究了对连续控制中动作空间的离散化对于基于策略优化的影响,发现动作空间的离散化采用可分解动作分布的策略可以有效地解决离散动作数量的爆炸性增长,并且在复杂动态高维任务上可以通过在策略中使用序数参数化引入自然排序从而获得性能显著提升的优越表现。
Jan, 2019
在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimization(QPPO)算法来解决深度强化学习问题,实验结果表明该方法在分位数优化指标下优于现有基准算法。
May, 2023
我们介绍了一个基于模型的强化学习算法,使用非线性常微分方程来表示连续时间动力学。我们使用校准良好的概率模型捕捉认识不确定性,并利用乐观原则进行探索。我们的分析表明,在连续时间下,测量选择策略 (MSS) 的重要性显现出来,因为我们不仅需要决定如何进行探索,还要决定何时观察底层系统。当使用高斯过程 (GP) 对常见的 MSS 选择(如等距采样)建模 ODEs 时,我们的后悔界限是次线性的。此外,我们提出了一种自适应的、数据依赖的实际 MSS,当与 GP 动力学相结合时,也能够在明显更少的样本下达到次线性的后悔。在几个应用上,我们展示了连续时间建模相对于离散时间建模的优势,以及我们提出的自适应 MSS 相对于标准基线的优势。
Oct, 2023