凸凹和背包约束下的有约束情节增强学习

MMJun, 2020

凸凹和背包约束下的有约束情节增强学习

Constrained episodic reinforcement learning in concave-convex and knapsack settings

Kianté Brantley, Miroslav Dudik, Thodoris Lykouris, Sobhan Miryoosefi, Max Simchowitz...

TL;DR我们提出了一个算法，用于带有约束的表格式状态机器学习，并提供了强有力的理论保证，适用于具有凹收益和凸约束或具有纯硬约束（背包）的情况。我们的实验表明，所提出的算法在现有的约束性情境中明显优于以前的工作，且超过线性约束和只有一个情节的简单情境。

Abstract

We propose an algorithm for tabular episodic reinforcement learning with constraints. We provide a modular analysis with strong theoretica

reinforcement learning constraints episodic concave rewards hard constraints

发现论文，激发创造

凸约束下的强化学习

本文提出了一种能处理一大类 RL 任务约束的算法方案，这些约束需要某些向量测量（如行动使用）的期望值位于凸集中，可以捕获以前研究的约束（如安全和接近专家），也可以实现新类别的约束（如多样性）。

Jun, 2019

深度强化学习：凸优化方法

本研究针对具有连续状态和动作空间的非线性系统考虑强化学习问题，提出了一种基于两层神经网络逼近最优 Q - 函数的序列学习算法，通过凸优化确保每个序列的权重得到最优化，针对稳定的非线性系统，证明了该算法的收敛性，并且训练得到的神经网络参数收敛到最优参数，两者之间的距离随着正则化参数的减小和时间跨度的增加变得任意小。

Feb, 2024

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

弹韧性约束强化学习

我们提出了一种新的约束强化学习方法，通过在学习目标中引入放松成本来适应放松约束，以实现对策略和约束规格的联合搜索，然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化，最后通过计算实验来证明我们方法的优点和有效性。

Dec, 2023

具有凹奖励和凸背包的赌博机

在这篇论文中，我们提出了一种广义的勘探 - 开发权衡模型，该模型允许在时间序列上对任意凹奖励和凸度约束进行决策，并对时间范围进行规定。我们证明了一种用于 MAB 的 UCB 系列算法自然而简单的扩展，提供了一个具有近乎最优的后悔保证的多项式时间算法，满足 Badanidiyuru 等人给出的 BwK 特殊情况下的边界，这一点非常惊人。此外，我们还通过建立此问题与其他研究领域中好的算法之间的有趣联系，提供了更高效的算法。

Feb, 2014

反向受限强化学习

研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法，建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架，并且该方法与之前的工作相比，在离散设置、特定类型约束和环境转移动力学等方面表现更好。

Nov, 2020

一种高效的含背包限制多臂赌博算法，以及对凹目标问题的扩展

研究了具有全局背包限制条件下的上下文多臂赌博问题，提出了一种计算效率更高、后悔更低的算法，复杂度与策略空间的大小成对数关系，并将结果推广到一种没有背包限制但目标是任意 Lipschitz 凹函数的变体。

Jun, 2015

演化约束强化学习策略

本文提出了一种新的进化约束强化学习算法，它使用随机排序自适应平衡奖励和约束违规，并通过维护一组拉格朗日松弛系数与约束缓冲器限制政策行为。实验结果表明，我们的方法在机器人控制测试中表现出优异的性能，同时，消融分析显示引入随机排序和约束缓冲的好处。

Apr, 2023

将后悔换成效率：具有长期限制条件的在线凸优化

本文提出了解决约束在线凸优化问题的框架。通过将问题转化为在线凸 - 凹优化问题，提出了一种有效的算法，可以实现收敛性较好的结果。同时，本文还为从中提取多点强化信号的约束在线凸优化问题提供了解决方案。

Nov, 2011

约束线性赌臂问题的凸方法

近年来，与人类不断互动的现实世界安全关键系统中的强盗优化引起了极大关注。本文提出了一个综合性研究，重点研究了安全线性强盗算法的计算方面，通过引入凸规划工具创建了计算效率高的策略。具体而言，我们首先对安全线性强盗问题的最优策略进行了特征化，并提出了一个仅涉及求解凸问题的端到端安全线性强盗算法流程。我们还对我们提出的方法的性能进行了数值评估。

Nov, 2023