Apr, 2022

部分可观测情况下的屏蔽防护强化学习

TL;DR研究了强化学习中的安全探索问题,提出了一种叫做 shield 的方法来确保代理人只进行安全的操作,并深度结合使用 state-of-the-art deep RL 来提高 RL 代理人的性能,实验证明这种方法可以提高收敛速度和最终表现,并可用于引导 state-of-the-art RL 代理人。