本文探讨了具有概率性策略执行不确定性的抗干扰强化学习问题,并提出了 ARRLC 算法,该算法具有极小化最坏情况下收益损失和样本复杂性的性质,并在实验中验证了其在存在干扰情况下的稳健性。
Jul, 2023
提供了一个框架,可将稳健性合并到持续控制强化学习算法中,通过学习最优策略并推导相应的鲁棒性熵正则化贝尔曼收缩算子来实现,并进一步引入了较不保守的软稳健熵正则化目标及相应贝尔曼算子,实验证明在九个领域的环境扰动及高维度的机器人控制方面,稳健和软稳健策略均优于无鲁棒性策略,并提供了多个探究实验来深入理解框架的其它特性。
Jun, 2019
研究了机器学习在具备恶意状态 / 执行机构攻击下的表现,介绍了深度强化学习在决策和控制任务中存在漏洞的问题,提出了通过对抗训练来提高深度强化学习代理的抗干扰性以实现系统的稳定性和鲁棒性。
Jul, 2020
介绍了一种新的不确定性集合并基于此提出了一种名为 ARQ-Learning 的鲁棒强化学习方法,同时还提出一种能高效解决 ARQ-Learning 在大规模或连续状态空间下的问题的技术,最终将其应用于各种存在模型不确定性的强化学习应用中。
May, 2023
本文介绍了一种基于证明高鲁棒性的策略优化框架,称为 CAROL,在学习环境模型的同时使用外部的抽象解释器来构建可微分信号来指导策略学习,并直接导致在收敛时返回的高鲁棒性证书。 在四个 MuJoCo 环境中的实验评估显示,CAROL 能够学习到与使用最先进的鲁棒 RL 方法学习到的非认证策略性能相当的认证策略。
Jan, 2023
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一些稳定点,在数值实验中进一步验证了算法的鲁棒性。
Sep, 2021
本文提出了一种基于 Soft-Robust Actor-Critic 算法的 Robust Reinforcement Learning 方法,能够学习针对不确定性模型的最优策略且避免过于保守,实验证明其收敛性和高效性。
Mar, 2018
该论文提出了一种鲁棒安全强化学习框架,解决了在真实控制任务中应用强化学习时外部干扰的安全性问题,该框架通过建立鲁棒不变集合来保证安全,并采用约束强化学习算法进行策略优化。
Oct, 2023
本研究基于对认证对抗鲁棒性研究的探讨,为深度强化学习算法提供在线认证鲁棒性的防御机制。该方法通过计算阈值来确定最佳的行动方案以应对各种可能存在的敌对行为和噪声干扰,从而有效提高了系统的鲁棒性。
Apr, 2020
本文研究基于深度神经网络的自主决策系统的安全性,提出了一种基于认证对抗鲁棒性的在线防御机制,该机制计算执行过程中状态 - 动作值的保证下限,以在可能存在对手或噪声导致输入空间最差情况偏离选择最佳行动,在行人碰撞回避场景和一个经典控制任务中,该方法显示出提高对噪声和对手的鲁棒性。
Oct, 2019