Nov, 2019

通过原始-对偶方法实现强化学习的安全策略

TL;DR研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题,使用一种约束的Markov决策过程来处理,通过提出一种问题的差分松弛方法,使得有最优安全保障的策略能够被发现。