Jun, 2023

在深度强化学习中检测对抗方向以作出鲁棒决策

TL;DR这篇文章提出了一种检测存在非鲁棒方向的新方法,基于深度神经网络策略损失的局部二次逼近,解决了在强化学习中高度复杂状态下存在的政策不稳定问题,并证明了其在对抗攻击环境中的有效性。