我们对文献中的 Reinforce 策略梯度算法进行了重新审视,并提出了一种改进算法,通过估计扰动参数上的策略梯度,采用随机搜索方法的一类随机性测量来放松无限状态和动作空间系统中的规则要求,证明了改进算法的收敛性。
Oct, 2023
研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题,在频率设置下,通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异,研究了这些算法的后悔边界问题,并突出了转移和奖励函数对学习性能的影响。
May, 2018
本文提出了一种基于自我模仿学习的深度强化学习算法,旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率,并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性,并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。
本文提出了一种基于核变量的乐观算法 Kernel-UCBVI,以及使用平滑核估计 MDP 奖励和转移的方法,以在探索和开发之间有效平衡,从而解决了有限时间内强化学习中的探索与开发困境。在连续 MDP 应用中,本文通过实验验证了该方法。
Apr, 2020
针对使用核回归时的强化学习问题,我们提出了一种乐观性的改进最小二乘法值迭代方法,我们证明了其在一般情况下具有一阶最优遗憾保证,其结果比现有技术有显着的多项式改进。
Jun, 2023
本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度,提出了一种非参数 Q 学习算法,其样本复杂度优化到 ε 和核心复杂度的阶数,这是针对这种普遍模型的首个具有有限样本复杂度的结果。
Feb, 2023
论文提出了一种集成了随机策略梯度和确定性策略梯度的预期策略梯度,通过对动作的积分来估算梯度,证明了其可以降低梯度估算的方差,对于高斯探索,通过设置动作的海森矩阵的指数作为协方差比标准探索更优,在四个 MuJoCo 域中明显优于使用奥恩斯坦 - 乌伦贝克启发式的确定性策略梯度.
Jun, 2017
本文提出了一种新颖的稳健策略梯度方法 (RPG) 用于 s - 矩形稳健马尔可夫决策过程 (MDP)。我们首次导出了闭式的对抗性核,并证明它是名义核的一阶扰动。这使我们能够得到一个类似于在非稳健 MDP 中使用的 RPG 的算法,但具有稳健的 Q 值函数和一个附加的校正项。稳健的 Q 值和校正项都可以高效计算,因此我们方法的时间复杂度与非稳健 MDP 的时间复杂度相匹配,比现有的黑盒方法快得多。
Jan, 2023
该研究通过引入泛函的方法,提出了一种新的策略梯度算法,用于解决马尔可夫决策问题中带通用上限效用函数的策略优化问题,并证明了其全局收敛性和收敛速度。
Jul, 2020
研究了 RL 中的 policy gradient methods,建立了 REINFORCE 算法的全局收敛理论,围绕梯度估计和采样效率等方面进行了研究。
Oct, 2020