Mar, 2020

基于上置信度的对偶强化学习用于带对抗损失的 CMDP

TL;DR本文关注于强化学习中保障安全的关键问题,提出一种新的基于置信上限的原始对偶算法,更好地解决了环境参数未知的情况下,限制条件作用下的 regret 分析。