基准引导的安全策略改进

Dec, 2017

Safe Policy Improvement with Baseline Bootstrapping

Romain Laroche, Paul Trichelair, Layla El Asri

TL;DR本文提出了一种名为SPIBB的方法，通过基线引导来提高策略，保证其至少与基线策略一样好，尤其在神经网络表示系统的批处理数据中，相比现有算法在安全性和均值性能方面有更好的表现。

Abstract

A common goal in Reinforcement Learning is to derive a good strategy given a limited batch of data. In this paper, we adopt the safe policy improvement (SPI) approach: we compute a target policy guaranteed to perform at least as well as a given baseline policy. Our SPI strategy, inspir

发现论文，激发创造

通过引导误差减少稳定离轨策略 Q 学习

该研究针对离线策略评估的弱点，探讨了如何通过约束动作选择减少Bellman backup带来的bootstrapping error，提出了一种名为BEAR的实用算法，在不同的离线策略分布上都表现出较强的鲁棒性。

Jun, 2019

软基线增强的安全策略改进

本文通过采用基于基线的自举算法(SPIBB)，允许在更广泛的策略集合上进行策略搜索，通过控制局部模型不确定性来约束政策变化，对捕获不良行为的风险进行更全面的评估，实验结果表明相对于现有的SPI算法，本文提出的方法在有限MDP和具有神经网络函数近似的无限MDP上均有显着提高。

Jul, 2019

通过原始-对偶方法实现强化学习的安全策略

研究控制一个在运作时间内有高概率保持期望安全集合的Markov决策过程的学习问题，使用一种约束的Markov决策过程来处理，通过提出一种问题的差分松弛方法，使得有最优安全保障的策略能够被发现。

Nov, 2019

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了40％，约10倍少的约束违规行为。

Jun, 2020

离线策略评估中的统计自举法用于不确定性估计

本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力，并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。

Jul, 2020

多目标SPIBB：有限MDPs中带安全约束的Seldonian离线策略改进

该论文探讨了如何在已知基线策略下，通过在多个奖励信号中进行权衡来改进机器学习模型的安全策略，并提出了一种新的基于安全策略迭代的方法，以保证算法的安全性和性能。

May, 2021

离散马尔可夫决策过程上的安全策略改进方法

介绍了一个新的算法，它可以在有限的马尔可夫决策过程上提供安全保障，并且在两个基准测试中展现出最佳表现。同时，提出了一个SPI算法的分类法，发现想法限制政策集合的算法更为安全。

Jan, 2022

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的RL算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022

POMDP有限状态控制器的安全策略改进

本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法，该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法，并在多项基准实验中证明了其可行性和有效性。

Jan, 2023

更少获取更多：通过更强的性能保证实现安全的策略提升

提出了一种改进强化学习应用中特定问题的方法，可以显著减少样本复杂度，该方法使用隐式变换来推导更紧密的改进边界，透过实例展示该方法在改进SPIBB算法上的功效。

May, 2023