深度强化学习:凸优化方法
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同,Q - 梯度下降可以结合任何目标统计量,通过变化动作,我们可以深入了解成功的神经网络优化的学习率调整策略。
Feb, 2016
本研究探讨了安全强化学习问题与非线性函数逼近的关系,将策略优化作为同时考虑目标与限制的非凸问题,通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题,证明了对这些问题求解,其解会收敛于原问题的稳定点;进一步将该算法应用于优化控制和多智能体安全强化学习问题,扩展了理论研究的范围。
Oct, 2019
本文研究了一种采用双层 ReLU 神经网络参数化的 Fitted Q-Iteration 算法,通过估计 Q-function 的凸优化问题来实现每次迭代的 Q-function,证明了该方法在具有计数状态空间的情况下可以实现采样复杂度为 $\widetilde {O}(1/ε^2)$。
Nov, 2022
通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法,本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点,并为该算法衍生的策略提供性能保证。
Jan, 2024
本文提出了一种能处理一大类 RL 任务约束的算法方案,这些约束需要某些向量测量(如行动使用)的期望值位于凸集中,可以捕获以前研究的约束(如安全和接近专家),也可以实现新类别的约束(如多样性)。
Jun, 2019
使用随机控制方法估计非凸函数的凸包问题,并基于此开发了强化学习方案来近似凸包,使用改进的 Q 学习方法进行控制性最优停止,在标准测试题库上取得了非常有希望的结果。
Nov, 2023
本论文提出了一种新的基于广义线性函数逼近的回合式强化学习算法,并在乐观闭合假设下分析其性能,证明了其具有更低的复杂度,并且是强化学习中第一个具有统计和计算效率的基于广义线性函数的算法。
Dec, 2019
通过超参数化来解决 neural TD 的优化非线性问题,证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解,并进一步连接到策略梯度算法的全局收敛。
May, 2019
本文提出了一种有限时间的神经 Q 学习算法,其中数据是从 Markov 决策过程中生成的,动作价值函数由 Deep ReLU 神经网络逼近,我们证明了如果神经功能逼近器被足够过度参数化,神经 Q 学习可以找到具有 O(1 / 根号 T)收敛速度的最优策略,并且该结果是对非 i.i.d 数据假设的首次有限时间分析。
Dec, 2019