约束强化学习的平均奖励目标：基于模型和无模型算法

Jun, 2024

约束强化学习的平均奖励目标：基于模型和无模型算法

Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms

Vaneet Aggarwal, Washim Uddin Mondal, Qinbo Bai

TL;DR在这份研究论文中，通过系统研究了强化学习（Reinforcement Learning）在约束条件下的模型方法和无模型方法，着重分析了平均奖励随机决策过程中乐观和后验取样的基础方法以及参数化模型无关方法，同时在解决约束决策过程中提供遗憾保证和约束违规分析。同时，还探讨了在弱通信随机决策过程中的结果，扩大了研究结果的适用范围。

Abstract

reinforcement learning (RL) serves as a versatile framework for sequential decision-making, finding applications across diverse domains such as robotics, autonomous driving, recommendation systems, supply chain optimization, biology, mechanics, and finance. The primary objective in the

reinforcement learning constrained rl markov decision processes model-based approaches model-free approaches

发现论文，激发创造

无模型鲁棒平均奖励强化学习

该研究主要关注如何处理模型不确定性对于 Markov 决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。

May, 2023

基于平均奖励的马尔可夫决策过程更为精确的无模型强化学习

我们提出了多种经过证明有效的无模型强化学习算法，包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法，在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。

Jun, 2023

无模型强化学习中的无限时域平均奖赏马尔可夫决策过程

本文提出两种基于无模型的强化学习算法，用于学习无限时间持续的平均回报 MDP 问题，第一种算法在弱相互通信的 MDPs 中，将问题简化为折扣回报问题，在 T 步之后的遗憾为 O (T^(2/3)), 该算法是解决该问题的第一种无模型的算法；第二种算法利用了对抗多臂老虎机自适应算法的最新进展，将遗憾进一步改进至 O (sqrt (T))，但需要更强的符合人类定义的遍历条件。这个结果取代了 Abbasi-Yadkori 等人 2019 年只有在符合人类定义的遍历条件下的 ergodic MDP 才能达到 O (T^(3/4)) 的遗憾。

Oct, 2019

在约束条件下的马尔可夫决策过程学习

本文研究如何在满足成本平均值约束条件下，通过设计基于模型的强化学习算法，从而最大化累积奖励，同时确保每个成本值的平均值被绑定在特定的上界之内。此外，我们提出了一种衡量强化学习算法表现的方法，即使用 M+1 维的后悔向量来衡量奖励和不同成本的差异，并证明了 UCRL-CMDP 算法的后悔向量的期望值的上界为 O（T ^ {2/3}）.

Feb, 2020

平均受限策略优化

本论文提出针对平均准则的受约束 MDPs 的一种新的（可能是第一种）策略优化算法 —— 平均约束策略优化（ACPO）算法，通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限，提供其性能的理论保证，并通过在各种具有挑战性的 MuJoCo 环境中的广泛实验工作，展示了该算法与其他专门为平均 CMDP 设置的最先进算法相比的卓越性能。

Feb, 2023

平均奖励马尔科夫决策过程的学习和规划

本研究提出了一种基于平均报酬 MDPs 的学习和规划算法，其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法，以及第一个离线学习算法，其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而不是常规错误更新平均报酬估计时，我们的所有算法都基于此。

Jun, 2020

基于约束的强化学习的简单无回报方法

本文探讨奖励自由强化学习和受限制的强化学习之间的联系，在标记 MDP 设置中，我们提出了一种简单的元算法，利用现有的奖励自由 RL 解算器，对受限制的强化学习问题进行直接求解，在现有结果的基础上匹配最佳结果，同时在线性函数近似下，我们直接将其扩展到标记二人马尔可夫博弈的设置中，并提供了一个新的受限制的 RL 结果。

Jul, 2021

针对具有近似最优遗憾度的无限时间平均收益 MDP 的无模型学习算法

提出了一种基于 EE-QL，结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法，实现了与最佳已知基于模型算法相似的学习速度。

Jun, 2020

使用平均和折扣奖励的多目标（深度）强化学习中学习公平策略

研究了如何在自主系统操作中考虑公平性，并提出一种基于深度强化学习的公平策略学习框架，应用于多个领域中，包括折扣回报和平均回报算法。

Aug, 2020

通过反向价值函数的约束马尔可夫决策过程

本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题，该算法将成本累加约束转化为基于状态的约束，并确保代理在训练过程中满足这些约束，同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版 MuJoCo 环境中表现出色。

Aug, 2020