May, 2024
基于利普希茨有界策略网络的强化学习的鲁棒性
On Robust Reinforcement Learning with Lipschitz-Bounded Policy Networks
TL;DR该研究利用深度强化学习探讨了鲁棒策略网络的优势,通过分析其在振荡摆和Atari Pong等问题上的实证性能和稳健性,证明了具有小Lipschitz界限的策略网络相比由普通多层感知机或卷积神经网络组成的无约束策略在扰动、随机噪声和有针对性的对抗攻击方面更加稳健。此外,研究还发现选择一个具有非保守的Lipschitz界限和具有表达力的非线性层结构的策略参数化方法可以更好地平衡性能和稳健性的权衡,优于现有基于谱标准化的最新方法。