多目标 SPIBB：有限 MDPs 中带安全约束的 Seldonian 离线策略改进

May, 2021

多目标 SPIBB：有限 MDPs 中带安全约束的 Seldonian 离线策略改进

Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs

Harsh Satija, Philip S. Thomas, Joelle Pineau, Romain Laroche

TL;DR该论文探讨了如何在已知基线策略下，通过在多个奖励信号中进行权衡来改进机器学习模型的安全策略，并提出了一种新的基于安全策略迭代的方法，以保证算法的安全性和性能。

Abstract

We study the problem of safe policy improvement (SPI) under constraints in the offline reinforcement learning (RL) setting. We consider the scenario where: (i) we have a dataset collected under a known baseline p

safe policy improvement offline reinforcement learning multiple reward signals trade-offs safe policy iteration

发现论文，激发创造

软基线增强的安全策略改进

本文通过采用基于基线的自举算法 (SPIBB)，允许在更广泛的策略集合上进行策略搜索，通过控制局部模型不确定性来约束政策变化，对捕获不良行为的风险进行更全面的评估，实验结果表明相对于现有的 SPI 算法，本文提出的方法在有限 MDP 和具有神经网络函数近似的无限 MDP 上均有显着提高。

Jul, 2019

基准引导的安全策略改进

本文提出了一种名为 SPIBB 的方法，通过基线引导来提高策略，保证其至少与基线策略一样好，尤其在神经网络表示系统的批处理数据中，相比现有算法在安全性和均值性能方面有更好的表现。

Dec, 2017

更少获取更多：通过更强的性能保证实现安全的策略提升

提出了一种改进强化学习应用中特定问题的方法，可以显著减少样本复杂度，该方法使用隐式变换来推导更紧密的改进边界，透过实例展示该方法在改进 SPIBB 算法上的功效。

May, 2023

离散马尔可夫决策过程上的安全策略改进方法

介绍了一个新的算法，它可以在有限的马尔可夫决策过程上提供安全保障，并且在两个基准测试中展现出最佳表现。同时，提出了一个 SPI 算法的分类法，发现想法限制政策集合的算法更为安全。

Jan, 2022

POMDP 有限状态控制器的安全策略改进

本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法，该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法，并在多项基准实验中证明了其可行性和有效性。

Jan, 2023

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022

受限马尔可夫决策过程中安全的强化学习

该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Aug, 2020

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

在具有不完全可达目标偏好的随机系统中的机会定性规划

本文研究在随机系统中如何综合具有时间扩展目标的偏好满足规划，并提出了安全和积极改进（SPI）和安全几乎肯定改进（SASI）两种解决方案概念以保证改进，并展示了用于合成 SPI 和 SASI 策略的算法。

Oct, 2022

针对非稳态 MDPs 的安全策略改进

为了确保在具有高风险影响的平稳变化的非稳态决策问题上的安全性和高置信度，本文提出了一种方法，该方法通过模型自由强化学习与时间序列分析的综合，将一种称为 Seldonian algorithm 的安全算法扩展。

Oct, 2020