Mar, 2022

线性二次控制的强化学习易受成本操纵攻击

TL;DR本研究研究了通过操纵成本信号来欺骗线性二次高斯代理,并提出了一种攻击模型,其中攻击者旨在通过故意篡改成本参数来误导代理学习 “恶意” 策略。我们展示了在两种类型的 LQG 学习者上的敌对操纵,并证明了只需对成本数据进行 2.296%的篡改,攻击者就可以欺骗批处理 RL 学习导致车辆进入危险位置的 ' 恶意 ' 策略,并且可以通过持续提供接近实际成本信号的篡改信号来逐渐欺骗 ADP 学习者学习相同的 ' 恶意 ' 策略。本文旨在提高人们对受 RL 启用的控制系统面临的安全威胁问题的认识。