离散马尔可夫决策过程上的安全策略改进方法

Jan, 2022

离散马尔可夫决策过程上的安全策略改进方法

Safe Policy Improvement Approaches on Discrete Markov Decision Processes

Philipp Scholl, Felix Dietrich, Clemens Otte, Steffen Udluft

TL;DR介绍了一个新的算法，它可以在有限的马尔可夫决策过程上提供安全保障，并且在两个基准测试中展现出最佳表现。同时，提出了一个 SPI 算法的分类法，发现想法限制政策集合的算法更为安全。

Abstract

safe policy improvement (SPI) aims at provable guarantees that a learned policy is at least approximately as good as a given baseline policy. Building on SPI with soft baseline bootstrapping (Soft-SPIBB) by Nadja

safe policy improvement soft baseline bootstrapping markov decision process spi algorithm uncertainty penalty

发现论文，激发创造

软基线增强的安全策略改进

本文通过采用基于基线的自举算法 (SPIBB)，允许在更广泛的策略集合上进行策略搜索，通过控制局部模型不确定性来约束政策变化，对捕获不良行为的风险进行更全面的评估，实验结果表明相对于现有的 SPI 算法，本文提出的方法在有限 MDP 和具有神经网络函数近似的无限 MDP 上均有显着提高。

Jul, 2019

基准引导的安全策略改进

本文提出了一种名为 SPIBB 的方法，通过基线引导来提高策略，保证其至少与基线策略一样好，尤其在神经网络表示系统的批处理数据中，相比现有算法在安全性和均值性能方面有更好的表现。

Dec, 2017

更少获取更多：通过更强的性能保证实现安全的策略提升

提出了一种改进强化学习应用中特定问题的方法，可以显著减少样本复杂度，该方法使用隐式变换来推导更紧密的改进边界，透过实例展示该方法在改进 SPIBB 算法上的功效。

May, 2023

多目标 SPIBB：有限 MDPs 中带安全约束的 Seldonian 离线策略改进

该论文探讨了如何在已知基线策略下，通过在多个奖励信号中进行权衡来改进机器学习模型的安全策略，并提出了一种新的基于安全策略迭代的方法，以保证算法的安全性和性能。

May, 2021

POMDP 有限状态控制器的安全策略改进

本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法，该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法，并在多项基准实验中证明了其可行性和有效性。

Jan, 2023

可配置马尔可夫决策过程

本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs)，以建立环境参数配置与学习代理之间的交互模型，并通过 Safe Policy-Model Iteration (SPMI) 算法，共同自适应优化策略与环境配置，实验结果表明该方法对提高学习策略的性能有益。

Jun, 2018

针对非稳态 MDPs 的安全策略改进

为了确保在具有高风险影响的平稳变化的非稳态决策问题上的安全性和高置信度，本文提出了一种方法，该方法通过模型自由强化学习与时间序列分析的综合，将一种称为 Seldonian algorithm 的安全算法扩展。

Oct, 2020

在具有不完全可达目标偏好的随机系统中的机会定性规划

本文研究在随机系统中如何综合具有时间扩展目标的偏好满足规划，并提出了安全和积极改进（SPI）和安全几乎肯定改进（SASI）两种解决方案概念以保证改进，并展示了用于合成 SPI 和 SASI 策略的算法。

Oct, 2022

通过最小化强鲁棒性基线遗憾实现安全策略改进

该研究论文提出一种基于模型的方法，使用有限数据计算安全策略，并使用已知的准确性保证对系统的不准确动态模型进行分析，以直接最小化关于基线策略的（负）遗憾，从而改进基础策略并在准确动态的情况下连续地使用，在遇到不准确动态的情况下无缝地回退到基线策略。

Jul, 2016

受限马尔可夫决策过程中安全的强化学习

该研究提出了一种名为 SNO-MDP 的算法，它可以在未知安全约束条件下探索和优化马尔可夫决策过程，通过扩展安全区域来学习安全约束条件，进而在已认证的安全区域内优化累积奖励。通过两个实验展示了该算法的有效性。

Aug, 2020