- e-COP:策略的时序受限优化
本文介绍了 $ exttt {e-COP}$ 算法,这是第一个适用于有约束的强化学习 (RL) 的离散 (有限时段) 设置的策略优化算法。我们通过在离散设置下建立策略差异引理来解决这个问题,提供算法的理论基础。通过对 Safety Gym - 多智能体分配任务的状态增强式强化学习
通过受限的强化学习解决多智能体分配问题中的冲突要求,强调标准正则化技术的不足,提出了一种状态增强方法,通过代理利用对偶变量的振荡来在任务之间交替,同时通过通信网络协调多智能体的动作,消除了访问其他智能体状态的需要,从而提出了一种具有理论可行 - 多项式时间下的受限强化学习确定性策略
我们提出了一种新颖的算法,能够高效计算约束强化学习问题的近似最优确定性策略。该算法通过三个关键思想进行组合:(1)价值需求增强,(2)动作空间的近似动态规划,以及(3)时间空间的取整。在较弱的奖励假设下,我们的算法构成了一个对多样化成本准则 - I-CTRL:基于约束强化学习的仿真控制人形机器人
本文介绍了一种通过有约束的强化学习算法实现对双足机器人进行基于物理的高质量动作模仿的框架,强调将视觉和物理现实性相结合对于成功实现动作模仿的重要性。
- 增强型强化学习故障识别(FIERL)
这篇论文提出了一种新颖的主动故障检测(AFD)方法,通过明确将任务分为两个部分:被动故障检测(PFD)和控制输入设计。该方法具有很强的普适性,大部分已有的 AFD 文献都可以从该角度来解读。通过认识到这种分离,PFD 方法可以提供高效利用可 - 模型不匹配下的受限增强学习
在训练环境下,现有的关于约束强化学习(RL)的研究可能可以获得良好的策略。然而,在真实环境中部署时,由于训练与真实环境之间可能存在模型不匹配,它可能很容易违反最初满足的约束。为了解决上述挑战,我们将问题形式化为模型不确定性下的约束强化学习, - 简单解析在强化学习中的投资组合分配约束
我们提出一种基于分解约束空间的方法来处理分配约束,该方法在投资组合优化任务中表现出优于现有方法的性能。
- 无线边缘多媒体流媒体结构化强化学习
通过使用学习型策略来确定在视频流媒体环境中哪些客户端应该动态优先考虑,以提升用户体验和增加 30% 的 QoE,并使用低计算复杂度的结构化策略进行快速学习。
- 混合动力车的受约束最优燃料消耗:受约束强化学习方法
混合动力汽车是越来越受欢迎,因为它们可以更好地结合内燃机和电动机的工作特性。本文首次从有限增强学习的角度提供了有限约束优化燃料消耗(COFC)的数学表达式,并首次利用有限变分策略优化(CVPO)和基于 Lagrange 方法的有限方法来获得 - 弹韧性约束强化学习
我们提出了一种新的约束强化学习方法,通过在学习目标中引入放松成本来适应放松约束,以实现对策略和约束规格的联合搜索,然后通过两种具有非渐进收敛保证的鲁棒约束策略搜索算法来平衡约束满足和奖励最大化,最后通过计算实验来证明我们方法的优点和有效性。
- 使用硬约束进行连续控制的简化策略优化
近期有关约束强化学习的研究进展为强化学习提供了一定的安全性保证。本文介绍了一种将 RL 与 GRG 相结合的减少策略优化算法 (RPO),用于处理存在非凸硬约束条件的连续控制任务。通过将动作分为基本动作和非基本动作,RPO 算法采用了 GR - 通过约束强化学习高斯过程避免奖励模型过度优化
使用约束强化学习方法解决复合奖励模型中过度优化问题,并通过学习动态权重以改善评估性能、识别并优化评估阈值点的自适应方法。
- 证明收敛性的有约束深度演员 - 评论家单循环算法学习强化学习
本文提出了一种针对现实问题中非凸随机约束并高成本与环境交互的一次迭代式深度演员 - 评论家算法框架,并使用约束随机连续逼近方法来处理非凸随机目标和约束。
- 约束型近端策略优化
本文提出了一种名为 CPPO 的新型一阶可行方法,将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布,并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略,解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂 - AutoCost:进化内在代价的零违规强化学习
本文提出了 AutoCost 框架,并在 Safety Gym 上进行了验证,结果表明其在 constrained RL 中实现了零违规性能,同时与基线有可比性的表现。
- 基于分位数约束的强化学习:约束失效概率的强化学习框架
本文提出了一种框架,名为 Quantile Constrained RL (QCRL),用于约束累积成本总和的分布分位数,并利用 LDP 来估计 QCPO 中的分位数和尾概率。
- UNIFY: 一个统一的机器学习约束优化问题政策设计框架
提出了 UNIFY 域,旨在统一机器学习(ML)和约束优化(CO)之间的相互作用,以解决复杂决策问题,并在两个具体实例中进行了有效性演示,同时指出了未来的研究方向
- 具有线性函数逼近的可证明高效的无模型约束强化学习
发展第一个无需模拟器的模型自由算法,它在大型系统中实现次线性遗憾和次线性约束违规,并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。
- ICML可达性约束强化学习
本文提出了基于可达性分析的 RCRL 方法来解决 CRL 中的安全约束问题,并利用可达性分析来建立新的自洽性条件以及特征化可行集。在多个基准测试中,RCRL 方法展现了优于 CRL 和安全控制基准的可行集、策略绩效和约束满足性。
- ICLRCOptiDICE: 离线约束强化学习基于稳态分布修正估计
本文提出了一种基于 COptiDICE 的离线约束强化学习算法,该算法直接估计稳态分布的矫正值以优化策略,以满足成本约束,并在实验中表现出更好的约束满足和回报最大化的策略.