May, 2024

应用动作空间中自适应对抗扰动的鲁棒深度强化学习

TL;DR深度强化学习算法中的模拟和真实世界之间的建模错误问题,通过使用对抗学习生成扰动以建模差异并提高深度强化学习的鲁棒性,在控制对抗性扰动的参数上存在平均性能和鲁棒性之间的权衡。为了保持训练的稳定性并提高鲁棒性,我们提出了一种简单而有效的方法,即自适应对抗性扰动 (A2P),可以动态选择适当的对抗性扰动来处理每个样本。我们的方法具有将其部署在实际应用中且无需事先访问模拟器的优点。在 MuJoCo 上的实验表明,我们的方法可以提高训练的稳定性,并在不同的测试环境中学习到一种鲁棒的策略。