May, 2024

基于利普希茨有界策略网络的强化学习的鲁棒性

TL;DR该研究利用深度强化学习探讨了鲁棒策略网络的优势,通过分析其在振荡摆和 Atari Pong 等问题上的实证性能和稳健性,证明了具有小 Lipschitz 界限的策略网络相比由普通多层感知机或卷积神经网络组成的无约束策略在扰动、随机噪声和有针对性的对抗攻击方面更加稳健。此外,研究还发现选择一个具有非保守的 Lipschitz 界限和具有表达力的非线性层结构的策略参数化方法可以更好地平衡性能和稳健性的权衡,优于现有基于谱标准化的最新方法。