更少获取更多：通过更强的性能保证实现安全的策略提升

IJCAIMay, 2023

更少获取更多：通过更强的性能保证实现安全的策略提升

More for Less: Safe Policy Improvement With Stronger Performance Guarantees

Patrick Wienhöft, Marnix Suilen, Thiago D. Simão, Clemens Dubslaff, Christel Baier...

TL;DR提出了一种改进强化学习应用中特定问题的方法，可以显著减少样本复杂度，该方法使用隐式变换来推导更紧密的改进边界，透过实例展示该方法在改进 SPIBB 算法上的功效。

Abstract

In an offline reinforcement learning setting, the safe policy improvement (SPI) problem aims to improve the performance of a behavior policy according to which sample data has been generated. State-of-the-art app

safe policy improvement reinforcement learning sample efficiency improvement bounds spibb algorithm

发现论文，激发创造

离散马尔可夫决策过程上的安全策略改进方法

介绍了一个新的算法，它可以在有限的马尔可夫决策过程上提供安全保障，并且在两个基准测试中展现出最佳表现。同时，提出了一个 SPI 算法的分类法，发现想法限制政策集合的算法更为安全。

Jan, 2022

软基线增强的安全策略改进

本文通过采用基于基线的自举算法 (SPIBB)，允许在更广泛的策略集合上进行策略搜索，通过控制局部模型不确定性来约束政策变化，对捕获不良行为的风险进行更全面的评估，实验结果表明相对于现有的 SPI 算法，本文提出的方法在有限 MDP 和具有神经网络函数近似的无限 MDP 上均有显着提高。

Jul, 2019

基准引导的安全策略改进

本文提出了一种名为 SPIBB 的方法，通过基线引导来提高策略，保证其至少与基线策略一样好，尤其在神经网络表示系统的批处理数据中，相比现有算法在安全性和均值性能方面有更好的表现。

Dec, 2017

多目标 SPIBB：有限 MDPs 中带安全约束的 Seldonian 离线策略改进

该论文探讨了如何在已知基线策略下，通过在多个奖励信号中进行权衡来改进机器学习模型的安全策略，并提出了一种新的基于安全策略迭代的方法，以保证算法的安全性和性能。

May, 2021

POMDP 有限状态控制器的安全策略改进

本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法，该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法，并在多项基准实验中证明了其可行性和有效性。

Jan, 2023

通过样本操作提高安全强化学习的效率

通过样本操作提高安全强化学习的效率，动态调整采样过程以最大程度地最小化成本和最大化奖励之间的平衡，ESPO 理论上保证了收敛性、优化稳定性和改善样本复杂性界限。在 Safety-MuJoCo 和 Omnisafe 基准测试中，ESPO 在奖励最大化和约束满足方面明显优于现有基线方法，同时显著提高了样本效率，与基线方法相比，所需样本减少了 25-29％，训练时间减少了 21-38％。

May, 2024

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022

在具有不完全可达目标偏好的随机系统中的机会定性规划

本文研究在随机系统中如何综合具有时间扩展目标的偏好满足规划，并提出了安全和积极改进（SPI）和安全几乎肯定改进（SASI）两种解决方案概念以保证改进，并展示了用于合成 SPI 和 SASI 策略的算法。

Oct, 2022

深度强化学习的监督策略更新

提出了一种新的深度强化学习的高效采样方法，名为 SPU。该方法通过在非参数化的近端策略空间中制定和解决约束优化问题来提高采样效率，并优于传统的策略优化算法 TRPO 和 PPO。

May, 2018

具有理论支持的样本重用的广义政策改进算法

该研究提出了一类广义政策提升算法，将在线算法和离线算法相结合，在保证策略改进的同时，实现了高效数据复用，为深度强化学习的实际应用提供了可行性。

Jun, 2022