非参数策略梯度算法在非平稳环境中的策略调整

Mar, 2022

非参数策略梯度算法在非平稳环境中的策略调整

Non-Parametric Stochastic Policy Gradient with Strategic Retreat for Non-Stationary Environment

Apan Dastider, Mingjie Lin

TL;DR该研究提出了一种非参数学习的策略，通过嵌入策略分布作为非递减的欧几里得空间中的特征，从而允许其搜索空间在非常高（可能无限）维的 RKHS（再生核希尔伯特空间）中定义。同时，通过在 RKHS 中计算的相似度度量，与 Adaptive H 技术相结合，实现优化动态环境下自主适应的最佳控制策略的非参数学习方法。实验证明，该方法在多个基准测试和一个配备动态变化环境的仿真机器人基准测试中优于 DDPG 和 TD3 方法。

Abstract

In modern robotics, effectively computing optimal control policies under dynamically varying environments poses substantial challenges to the off-the-shelf parametric policy gradient methods, such as the Deep Det

robotics optimal control policies non-parametric learning kernel-based adaptiveh

发现论文，激发创造

纯粹确定性策略优化

本文提出了一种政策梯度方法，避免引入探索性噪声并在确定性景观上执行政策搜索，使用 Wasserstein-based 二次模型进行确定性政策正则化，适用于机器人控制环境。

May, 2022

非平稳风险敏感强化学习：近似最优动态遗憾、自适应检测和分离设计

研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习，提出了两种基于重启的算法以及自适应检测不稳定性的元算法，并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。

Nov, 2022

基于核方法的度量空间非平稳强化学习

本文提出了 KeRNS 算法，该算法使用基于时间依赖内核的非参数模型来处理非静态 MDP 中的情节强化学习问题，并且证明了与状态动作空间的覆盖维度和 MDP 的总变化量有关的遗憾界，该方法一般化了先前基于滑动窗口和指数折扣等方法来处理变化环境的方法。此外，我们提出了 KeRNS 的实用实现，分析了它的遗憾并进行了实验验证。

Jul, 2020

非平稳环境中的策略优化动态遗憾

本文提出了两种针对具有对抗性全信息奖励反馈和未知固定转移核的情境 MDPs 的无模型策略优化算法 POWER 和 POWER ++，并建立了它们的动态后悔保证。

Jun, 2020

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

用随机策略梯度学习最优确定性策略

通过比较基于动作和基于参数的探索，本论文介绍了一种理论框架以及对全局收敛性的研究，用于理解强化学习中连续问题的策略梯度方法，可以通过学习确定性策略来优化采样复杂度和性能之间的权衡。

May, 2024

非平稳低秩 MDP 的可证明高效算法

本研究在探讨非平稳马尔可夫决策过程下的强化学习问题，针对低秩模型中存在未知表示的情况，提出了参数依赖的优化算法 PORTAL 和参数无关的改进版 Ada-PORTAL，通过样本复杂度进行理论分析并得出上界，证明了在非平稳性不显著时，这两种算法均能够以多项式样本复杂度实现任意小的平均动态次优差距。

Aug, 2023

非稳态环境中的广泛计划与学习的认知性探索

该论文介绍了一种在使用关系表示表示的非平稳随机环境中进行持续规划和模型学习的新方法。

Feb, 2024

具有快速收敛速度的随机微分方程的非参数学习

本论文提出了一种非参数学习算法，利用状态的离散时间观测来识别非线性随机微分方程的漂移和扩散系数，其中的关键思想是拟合相应的 Fokker-Planck 方程的 RKHS 近似，通过理论估计学习率，而这个学习率与以前的方法不同，当未知漂移和扩散系数的可靠性更高时，变得更加紧密。由于我们的方法是基于核的，离线预处理可以被有利地利用以实现有效的数字实现。

May, 2023

神经动态策略的端到端感觉 - 运动学习

该论文提出了一种新的策略表示 —— 神经动力学策略，通过将动力学系统嵌入到神经网络策略中，通过二阶微分方程来重新参数化动作空间以实现端到端的政策学习，并在几个机器人控制任务中展示了神经动态策略比传统的基于先验的策略学习方法更高的效率和性能表现。

Dec, 2020