MMJun, 2021

零或有界约束违规的约束马尔可夫决策过程策略学习

TL;DR本文探讨了在强化学习过程中如何确保系统安全,并提出了一种基于 Markov 决策过程的算法,通过乐观悲观原则实现了安全探索和奖励控制,使系统在保证零约束违规的前提下,获得可观的奖励表现。