线性二次控制的强化学习易受成本操纵攻击

Mar, 2022

线性二次控制的强化学习易受成本操纵攻击

Reinforcement Learning for Linear Quadratic Control is Vulnerable Under Cost Manipulation

Yunhan Huang, Quanyan Zhu

TL;DR本研究研究了通过操纵成本信号来欺骗线性二次高斯代理，并提出了一种攻击模型，其中攻击者旨在通过故意篡改成本参数来误导代理学习 “恶意” 策略。我们展示了在两种类型的 LQG 学习者上的敌对操纵，并证明了只需对成本数据进行 2.296％的篡改，攻击者就可以欺骗批处理 RL 学习导致车辆进入危险位置的 ' 恶意 ' 策略，并且可以通过持续提供接近实际成本信号的篡改信号来逐渐欺骗 ADP 学习者学习相同的 ' 恶意 ' 策略。本文旨在提高人们对受 RL 启用的控制系统面临的安全威胁问题的认识。

Abstract

In this work, we study the deception of a linear-quadratic-gaussian (LQG) agent by manipulating the cost signals. We show that a small falsification of the cost parameters will only lead to a bounded change in th

linear-quadratic-gaussian deception adversarial manipulation batch rl learner adaptive dynamic programming

发现论文，激发创造

对成本信号进行对抗操纵的欺骗性强化学习

本文研究了恶意篡改成本信号下的强化学习，并介绍了攻击模型的量化框架，该模型有助于了解强化学习的漏洞。通过对 Q-learning 的研究，我们证明了 Q-learning 算法在隐蔽攻击和成本信号有限篡改下仍然能够收敛。通过解析篡改代价与 Q 因素及学习代理所学习的策略之间的关系，我们提供了可行的攻击和防御策略的基本限制。我们提出了一种鲁棒的代价区间，即在该区间内对手永远无法实现目标策略。我们给出了一些关于篡改代价的条件，它们能够误导代理学习对手所偏爱的策略。最后，通过一个水库控制的数值案例研究，我们展示了学习型控制系统中强化学习的潜在危险并证实了我们的研究结果。

Jun, 2019

控制置信成本

我们开发了一种考虑推断计算成本的随机控制方法，结合了有效编码和高效控制的概念。研究发现，代理人通过在后验概率相对精度上增加内部成本来权衡总效用和任务性能，从而实现有效控制。通过研究线性二次高斯控制，我们发现代理人在不同任务需求下转换为一系列与旋转变换相关的次最优推断策略，每个策略都对世界的稳定性估计存在误差。这项工作为大脑和机器在高效但受计算限制的控制方面提供了新的合理计算基础。

Jun, 2024

批量强化学习和控制中的策略污染

本研究针对批量强化学习和控制中的安全威胁进行了探讨，该攻击旨在污染所学策略。案例针对强化学习中的表格确定等价学习器和控制中的线性二次调节器进行了实例化，并表明了两个实例均可实现全局最优解。

Oct, 2019

基于 Q 学习的概率布尔控制网络的最优虚假数据注入攻击

通过采用强化学习方法（特别是 Q-learning 算法），解决了在概率布尔控制网络中，攻击者模型不可知情况下的最优虚假数据注入问题，并提出了一种改进的 QL 算法，能够处理标准 QL 算法无法处理的大规模 PBCNs 并获取最优攻击策略，并通过两个被攻击的 PBCN 网络验证了我们提出方法的有效性。

Nov, 2023

非随机控制赌博机的最优率

探究了具有半对抗干扰和随时间变化的对抗性贝叶斯损失函数的线性四次型调节器和线性四次型高斯控制问题。提出了一种新的带有记忆的贪婪凸优化方案，其算法达到了最优遗憾度

May, 2023

非随机控制的失当学习

本文研究非随机控制问题，提出了一种基于降噪观测值的控制器参数化方法，通过在线梯度下降方法得到一个新的控制器，其对一类闭环策略实现了次线性遗憾，为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。

Jan, 2020

在线线性二次控制

我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题，并提出了第一种在这种情况下保证 O（sqrt（T））遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反，我们的 SDP 的可行解都对应于 “强稳定” 策略，这些策略混合到稳定状态的速度呈指数增长。

Jun, 2018

基于学习的线性二次高斯控制附加勘探的遗憾分析

通过数值模拟，我们分析了一种称为 LQG-NAIVE 的方法在控制未知部分可观察系统时产生的后悔效应，提出了扩展到 “闭环” 设置的 LQG-IF2E 方法，并验证了其与 LQG-NAIVE 的竞争性能。

Nov, 2023

基于专家预测的无模型线性二次控制

本文介绍了一种新的无模型算法，用于控制线性二次系统，利用 reduce 方法，将马尔科夫决策过程的控制问题转化为专家预测问题，该算法实现简单通用，拥有多项理论保证和良好的性能。

Apr, 2018

线性二次型调节器的鲁棒自适应控制遗憾界

本文提出了一种自适应控制的方法，可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题，算法的时间复杂度为多项式级别，且在控制中有很好的保障。

May, 2018