ICLRMar, 2024

富有信念的悲观 Q 学习用于对抗敌对状态扰动

TL;DR我们提出了一种新的强化学习 (RL) 算法,通过得到一种悲观策略来保护代理对真实状态的不确定性,并结合置信状态推理和基于扩散的状态净化来降低不确定性,实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。