深度强化学习：凸优化方法

Feb, 2024

Deep Reinforcement Learning: A Convex Optimization Approach

Ather Gattami

TL;DR本研究针对具有连续状态和动作空间的非线性系统考虑强化学习问题，提出了一种基于两层神经网络逼近最优 Q - 函数的序列学习算法，通过凸优化确保每个序列的权重得到最优化，针对稳定的非线性系统，证明了该算法的收敛性，并且训练得到的神经网络参数收敛到最优参数，两者之间的距离随着正则化参数的减小和时间跨度的增加变得任意小。

Abstract

In this paper, we consider reinforcement learning of nonlinear systems with continuous state and action spaces. We present an episodic learning algorithm, where we for each episode use →

reinforcement learning nonlinear systems convex optimization neural network convergence

发现论文，激发创造

使用深度 Q-Learning 控制优化超参数

本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即 q 值。训练的 DQN 结合基于梯度的更新例程构成了 Q - 梯度下降算法的基础。与传统的优化方法不同，Q - 梯度下降可以结合任何目标统计量，通过变化动作，我们可以深入了解成功的神经网络优化的学习率调整策略。

Feb, 2016

安全强化学习的收敛策略优化

本研究探讨了安全强化学习问题与非线性函数逼近的关系，将策略优化作为同时考虑目标与限制的非凸问题，通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题，证明了对这些问题求解，其解会收敛于原问题的稳定点；进一步将该算法应用于优化控制和多智能体安全强化学习问题，扩展了理论研究的范围。

Oct, 2019

关于使用双层神经网络参数化的 Fitted Q-Iteration 的全球收敛性

本文研究了一种采用双层 ReLU 神经网络参数化的 Fitted Q-Iteration 算法，通过估计 Q-function 的凸优化问题来实现每次迭代的 Q-function，证明了该方法在具有计数状态空间的情况下可以实现采样复杂度为 $\widetilde {O}(1/ε^2)$。

Nov, 2022

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

凸约束下的强化学习

本文提出了一种能处理一大类 RL 任务约束的算法方案，这些约束需要某些向量测量（如行动使用）的期望值位于凸集中，可以捕获以前研究的约束（如安全和接近专家），也可以实现新类别的约束（如多样性）。

Jun, 2019

凸形强化学习中的常见假设挑战

本文针对凸强化学习中优化无限试验目标带来的近似误差问题展开研究，并指出这一问题将影响包括模仿学习在内的相关领域的方法和技术。

Feb, 2022

使用强化学习近似凸包

使用随机控制方法估计非凸函数的凸包问题，并基于此开发了强化学习方案来近似凸包，使用改进的 Q 学习方法进行控制性最优停止，在标准测试题库上取得了非常有希望的结果。

Nov, 2023

广义线性函数逼近强化学习中的乐观主义

本论文提出了一种新的基于广义线性函数逼近的回合式强化学习算法，并在乐观闭合假设下分析其性能，证明了其具有更低的复杂度，并且是强化学习中第一个具有统计和计算效率的基于广义线性函数的算法。

Dec, 2019

神经时序差分和 Q-learning 可以被证明收敛于全局最优解

通过超参数化来解决 neural TD 的优化非线性问题，证明了 neural TD 在策略评估中以次线性速率收敛于均方 Bellman 误差的全局最优解，并进一步连接到策略梯度算法的全局收敛。

May, 2019

基于神经网络函数逼近的 Q 学习的有限时间分析

本文提出了一种有限时间的神经 Q 学习算法，其中数据是从 Markov 决策过程中生成的，动作价值函数由 Deep ReLU 神经网络逼近，我们证明了如果神经功能逼近器被足够过度参数化，神经 Q 学习可以找到具有 O（1 / 根号 T）收敛速度的最优策略，并且该结果是对非 i.i.d 数据假设的首次有限时间分析。

Dec, 2019