Oct, 2024

通过李雅普诺夫指数增强深度强化学习的鲁棒性

TL;DR本研究针对深度强化学习政策在真实世界应用中缺乏鲁棒性的问题,探讨了小状态扰动对其稳定性的影响。提出了一种改进的Dreamer V3架构,通过最大李雅普诺夫指数正则化来减少状态动态的混沌性,从而提高了学习政策对传感器噪声和对抗攻击的抵抗能力。这一方法大大增强了深度强化学习在实际应用中的适用性。