Sep, 2022

安全策略优化的约束更新投影方法

TL;DR提出了一种基于限制更新投影框架的新型策略优化方法CUP,其安全性得到了保证,并通过对代理人探索危险区域的限制来进一步确保安全;实验结果表明CUP具有较强的实际表现和安全性能。