May, 2023

ROSARL: 仅基于奖励的安全强化学习

TL;DR在强化学习中,设计能够在一个环境中安全地解决任务的代理人是一个重要的问题。本文提出了一个实用的无模型算法,它可以帮助代理人学习 Minmax 惩罚,而且在学习任务策略的同时使其学习安全策略。这个算法可以在高维连续控制环境中产生学习安全策略的代理人。