Jan, 2025

从策略分布角度重新思考强化学习中的对抗攻击

TL;DR本研究解决了深度强化学习在实际应用中由于观察信号的不确定性和不准确性所面临的问题。论文提出了一种新颖的分布感知投影梯度下降攻击(DAPGD),利用分布相似性作为梯度扰动输入,从而综合利用整个策略分布,而不仅仅依赖个别样本。实验结果显示,DAPGD在三项机器人导航任务中表现出色,相较于最佳基线平均提升了22.03%的奖励下降效果。