safe policy improvement | BriefGPT

关键词safe policy improvement

搜索结果 - 8

IJCAI更少获取更多：通过更强的性能保证实现安全的策略提升
提出了一种改进强化学习应用中特定问题的方法，可以显著减少样本复杂度，该方法使用隐式变换来推导更紧密的改进边界，透过实例展示该方法在改进 SPIBB 算法上的功效。
PDFa year ago
AAAIPOMDP 有限状态控制器的安全策略改进
本文研究了用于局部可观察马尔可夫决策问题 (POMDP) 的安全策略改进 (SPI) 方法，该方法假定可以访问历史数据和行为策略。作者提出基于有限状态控制器和有限记忆计算的离线策略改进方法，并在多项基准实验中证明了其可行性和有效性。
PDFa year ago
离散马尔可夫决策过程上的安全策略改进方法
介绍了一个新的算法，它可以在有限的马尔可夫决策过程上提供安全保障，并且在两个基准测试中展现出最佳表现。同时，提出了一个 SPI 算法的分类法，发现想法限制政策集合的算法更为安全。
PDF2 years ago
多目标 SPIBB：有限 MDPs 中带安全约束的 Seldonian 离线策略改进
该论文探讨了如何在已知基线策略下，通过在多个奖励信号中进行权衡来改进机器学习模型的安全策略，并提出了一种新的基于安全策略迭代的方法，以保证算法的安全性和性能。
PDF3 years ago
通过反向价值函数的约束马尔可夫决策过程
本文提出了一种新的强化学习算法来应对现实世界中存在的约束条件问题，该算法将成本累加约束转化为基于状态的约束，并确保代理在训练过程中满足这些约束，同时保证其最大化回报。实验证明这种基于深度神经网络的算法在安全导航任务和约束版 MuJoCo 环
PDF4 years ago
KDD软基线增强的安全策略改进
本文通过采用基于基线的自举算法 (SPIBB)，允许在更广泛的策略集合上进行策略搜索，通过控制局部模型不确定性来约束政策变化，对捕获不良行为的风险进行更全面的评估，实验结果表明相对于现有的 SPI 算法，本文提出的方法在有限 MDP 和具有
PDF5 years ago
ICML基准引导的安全策略改进
本文提出了一种名为 SPIBB 的方法，通过基线引导来提高策略，保证其至少与基线策略一样好，尤其在神经网络表示系统的批处理数据中，相比现有算法在安全性和均值性能方面有更好的表现。
PDF7 years ago
ICML强化学习的双重稳健性离线价值评估
研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以
PDF9 years ago