使用强化学习近似凸包

Nov, 2023

Approximation of Convex Envelope Using Reinforcement Learning

Vivek S. Borkar, Adit Akarsh

TL;DR使用随机控制方法估计非凸函数的凸包问题，并基于此开发了强化学习方案来近似凸包，使用改进的 Q 学习方法进行控制性最优停止，在标准测试题库上取得了非常有希望的结果。

Abstract

Oberman gave a stochastic control formulation of the problem of estimating the convex envelope of a non-convex function. Based on this, we

stochastic control formulation estimating convex envelope reinforcement learning q-learning

发现论文，激发创造

深度强化学习：凸优化方法

本研究针对具有连续状态和动作空间的非线性系统考虑强化学习问题，提出了一种基于两层神经网络逼近最优 Q - 函数的序列学习算法，通过凸优化确保每个序列的权重得到最优化，针对稳定的非线性系统，证明了该算法的收敛性，并且训练得到的神经网络参数收敛到最优参数，两者之间的距离随着正则化参数的减小和时间跨度的增加变得任意小。

Feb, 2024

随机环境中的凸 Q 学习：扩展版

引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括：对该凸松弛性质的属性进行了鉴定，提供了一种近似凸程序的直接模型无关方法，证明了所提出算法的收敛性，并介绍了计算速率。同时，该方法可以推广到多种性能指标，并通过经典库存控制问题进行了实证验证。

Sep, 2023

安全强化学习的收敛策略优化

本研究探讨了安全强化学习问题与非线性函数逼近的关系，将策略优化作为同时考虑目标与限制的非凸问题，通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题，证明了对这些问题求解，其解会收敛于原问题的稳定点；进一步将该算法应用于优化控制和多智能体安全强化学习问题，扩展了理论研究的范围。

Oct, 2019

凸约束下的强化学习

本文提出了一种能处理一大类 RL 任务约束的算法方案，这些约束需要某些向量测量（如行动使用）的期望值位于凸集中，可以捕获以前研究的约束（如安全和接近专家），也可以实现新类别的约束（如多样性）。

Jun, 2019

安全强化学习的约束变分策略优化

该研究通过引入新的期望最大化方法，并从概率推理的角度解决问题，将安全增强学习问题分解为凸优化和监督学习两个阶段，实现了更稳定和更高效的学习表现，并在连续机器人任务的广泛实验中取得了显著的约束满足性能和样本效率提升。

Jan, 2022

SBEED：非线性函数逼近的收敛强化学习

本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Dec, 2017

LQR 元策略估计的 Moreau 包络方法

基于不确定动态系统的有限实现集，我们提出了一种基于 Moreau 包络的代理 LQR 成本方法，以定义一种能够高效适应新实现的元策略，并设计了一种算法来寻找元 LQR 成本函数的近似一阶稳定点。数值结果表明，所提出的方法在新的线性系统实现上优于简单平均控制器。我们还提供了经验证据表明，我们的方法具有比模型无关元学习（MAML）方法更好的样本复杂度。

Mar, 2024

强化学习之旅：从连续控制视角出发

综述了强化学习的优化和控制方法，重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器（LQR）的案例研究，描述了从学习理论和控制理论的融合可以提供 LQR 性能的非渐进特征，并表明这些特征趋向于匹配实验行为。同时，探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。

Jun, 2018

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

可证明的基于模型非线性赌博机和强化学习：放弃乐观主义，拥抱虚拟曲率

本文主要研究基于模型的赌博机和强化学习，针对非线性函数逼近，构建了一个可证明收敛至本地最大值的模型 ——ViOlin 算法，提高了样本效率，并在多个具体场景中给出了全局或本地损失的保证。

Feb, 2021