Feb, 2022

从灾难性行动效应中学习防护措施:不要重复同样的错误

TL;DR本文提出一种新型的部分可观测马尔可夫决策过程类别 -- 带有灾难性行动(POMDP-CA),通过引入一个叫做 shield 的概念,该方法可以避免智能体在学习时重复犯错、并在长期的、复杂的环境中实现习得控制策略的目标。