从灾难性行动效应中学习防护措施：不要重复同样的错误

Feb, 2022

从灾难性行动效应中学习防护措施：不要重复同样的错误

Learning a Shield from Catastrophic Action Effects: Never Repeat the Same Mistake

Shahaf S. Shperberg, Bo Liu, Peter Stone

TL;DR本文提出一种新型的部分可观测马尔可夫决策过程类别 -- 带有灾难性行动（POMDP-CA），通过引入一个叫做 shield 的概念，该方法可以避免智能体在学习时重复犯错、并在长期的、复杂的环境中实现习得控制策略的目标。

Abstract

Agents that operate in an unknown environment are bound to make mistakes while learning, including, at least occasionally, some that lead to catastrophic consequences. When humans make catastrophic mistakes, they are expected to learn never to repeat them, such as a toddler who touches a hot stove and immediately learns never to do so again. In this work we

pomdp-ca catastrophic actions shield continual learning safe reinforcement learning

发现论文，激发创造

安全的 POMDP 在线规划方法之护盾技术

本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程（POMDPs）中的不确定性问题，其中通过计算和整合防护盾到在线规划算法（POMCP）中以确保安全性。实验结果表明，该方法在大型 POMDPs 中成功地保证了安全性，并对在线规划的运行时间几乎没有影响。

Sep, 2023

动态模型预测屏蔽用于可证明安全的强化学习

该研究介绍了动态模型预测屏蔽（DMPS）方法，在维持可证安全的同时优化强化学习目标，通过采用本地计划器来动态选择安全恢复动作，从而在短期进展和长期回报上实现最大化，证明了该方法能确保训练期间和训练后的安全性，并收敛于在实践中既高性能又安全的策略。

May, 2024

混合系统的护盾强化学习

通过使用所谓的野蛮方法，本文提出了构建障碍盾牌的方法，通过系统地选择真实转移函数的样本，以提取基于分区的双人安全游戏的近似有限表示。尽管难以达到严格的安全保证，但我们通过原型实现和 UPPAAL STRATEGO 实验证明了强大的统计安全保证，进一步研究了障碍盾牌的合成对控制器学习前和后应用的影响，并在一系列案例研究中应用了我们的技术。

Aug, 2023

使用浅层 MCTS 增强 Pommerman 中的深度 RL 安全性探究

本文研究如何使用非专业演示者的行动指导来避免稀疏、延迟和具有欺骗性的奖励域中的灾难性事件，并提出了一种新的框架将计划算法与异步分布式深度强化学习方法相结合，相比传统的深度强化学习算法，提高了学习速度并收敛到更好的策略。

Apr, 2019

通过屏蔽技术实现安全强化学习

该论文介绍了一种基于时间逻辑表达的安全性要求，用反应系统来指导强化学习算法的政策优化过程，保证学习和执行阶段的安全性。实验表明该方法在多种场景下具有通用性。

Aug, 2017

通过状态保守策略优化学习对抗转移动态的稳健策略

本研究提出了一种名为 SCPO 的新型无模型的策略算法，通过近似减少状态空间内的扰动来解决源环境和目标环境之间差异性的问题，以使深度强化学习算法在真实环境中更加具有鲁棒性。

Dec, 2021

资源受限的目标 POMDP 中的屏蔽

该研究考虑了部分可观察的马尔可夫决策过程（POMDP），并研究了一个问题，即如何在资源有限制的情况下实现目标最小化成本。该研究设计了一种算法用于计算特定情况下的 “防护措施”，并将该防护措施与启发式搜索算法相结合，实现了对该问题的解决。通过实验证明了该算法的实用性。

Nov, 2022

利用任务硬注意力克服灾难性遗忘

本文提出了一种基于任务的硬注意机制，利用随机梯度下降学习硬注意掩码来保留上一个任务中的信息而不影响当前任务的学习，有效提高神经网络在顺序学习能力上的性能。此方法对不同超参数的选择也具有鲁棒性，并且具有控制学习知识稳定性和紧凑性等特点，在在线学习或网络压缩应用中也是吸引人的。

Jan, 2018

COPA: 离线增强学习中针对污染攻击进行认证鲁棒策略

本文介绍了针对强化学习在训练过程中的恶意攻击问题，提出了首个基于合规框架 COPA 的认证方案，证明了该方案在不同的认证标准下的有效性，同时通过在三种不同算法训练的 RL 环境上实验，发现不同算法和环境的鲁棒性存在差异。

Mar, 2022

部分可观测情况下的屏蔽防护强化学习

研究了强化学习中的安全探索问题，提出了一种叫做 shield 的方法来确保代理人只进行安全的操作，并深度结合使用 state-of-the-art deep RL 来提高 RL 代理人的性能，实验证明这种方法可以提高收敛速度和最终表现，并可用于引导 state-of-the-art RL 代理人。

Apr, 2022