本文研究如何在满足成本平均值约束条件下,通过设计基于模型的强化学习算法,从而最大化累积奖励,同时确保每个成本值的平均值被绑定在特定的上界之内。此外,我们提出了一种衡量强化学习算法表现的方法,即使用 M+1 维的后悔向量来衡量奖励和不同成本的差异,并证明了 UCRL-CMDP 算法的后悔向量的期望值的上界为 O(T ^ {2/3}).
Feb, 2020
UCRL3 算法是在 UCRL2 算法的基础上引入了专业时间均匀集中不等式和每个状态 - 动作对奖励和转移分布的置信区间等改进,以减少探索来优化分布,理论上改善了 UCRL2 算法,在标准环境下的数值实验也证明了 UCRL3 算法的实用性和有效性。
Apr, 2020
本文关注于强化学习中保障安全的关键问题,提出一种新的基于置信上限的原始对偶算法,更好地解决了环境参数未知的情况下,限制条件作用下的 regret 分析。
Mar, 2020
本研究提出了一种基于方差置信区间的简单算法 UCRL-V,能够有效降低在未知有限通信 MDP 中的最优遗憾,并在多种环境下的实验证明 UCRL-V 算法优于现有算法。
May, 2019
本文研究了具有线性函数逼近的增强学习,其中马尔科夫决策过程(MDP)的潜在转移概率核心为线性混合模型,并且学习代理具有单个基础核函数的积分或采样神谕的访问。 基于我们提出的新的 Bernstein 型自归一类化不等式,我们提出了一种名为 $ ext {UCRL-VTR}^{+}$ 的新的计算有效算法,以进行具有线性函数逼近的线性混合 MDPs 的无折扣情况。 我们还提出了新的算法 $ ext {UCLK}^{+}$,适用于同一类 MDP 的折扣情况,这两种算法分别在最小化最大性上达到了近乎最小值,是线性函数逼近 RL 的第一篇计算有效性,近乎最小值的论文。
Dec, 2020
考虑在马尔可夫决策过程中找到一种确定性策略,该策略统一(在所有状态下)最大化一种奖励,同时受到不同奖励的概率约束。本文提出了一种适当的约束强化学习算法来防止学习不稳定性,并使用递归约束描述了我们的问题的动机和适用性。
Jan, 2022
本研究提出了一种基于 MDPs 的风险受限规划算法,它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合,以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。
本文研究利用概率风险约束的马尔可夫决策过程,通过计算梯度并设计算法实现了局部最优策略,解决了累积成本最小化的顺序决策问题,例子包括最优停止问题和在线营销应用。
Dec, 2015
本文研究了周期马尔可夫决策过程中的学习问题,提出了一种基于上界置信区间的强化学习算法,证明了该算法的性能,在理论和经验层面上都表现出良好的效果。
Mar, 2023
本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题,该算法将成本累加约束转化为基于状态的约束,并确保代理在训练过程中满足这些约束,同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版 MuJoCo 环境中表现出色。
Aug, 2020