BriefGPT.xyz
Jul, 2021
基于约束的强化学习的简单无回报方法
A Simple Reward-free Approach to Constrained Reinforcement Learning
HTML
PDF
Sobhan Miryoosefi, Chi Jin
TL;DR
本文探讨奖励自由强化学习和受限制的强化学习之间的联系,在标记MDP设置中,我们提出了一种简单的元算法,利用现有的奖励自由RL解算器,对受限制的强化学习问题进行直接求解, 在现有结果的基础上匹配最佳结果,同时在线性函数近似下,我们直接将其扩展到标记二人马尔可夫博弈的设置中,并提供了一个新的受限制的RL结果。
Abstract
In
constrained reinforcement learning
(RL), a learning agent seeks to not only optimize the overall reward but also satisfy the additional safety, diversity, or
budget constraints
. Consequently, existing constrai
→