Mar, 2022

可证明符合性引导的强化学习

TL;DR本文展示了一种使用利用现有的 normative supervisor 框架的方法,通过 MORL 技术以平衡非道德目标和避免违规的道德目标,在自主代理中实现安全、道德或合法行为,且不受惩罚强度大小的影响。