在不确定的参数环境中学习可证明的鲁棒政策

Aug, 2024

在不确定的参数环境中学习可证明的鲁棒政策

Learning Provably Robust Policies in Uncertain Parametric Environments

Yannik Schnitzer, Alessandro Abate, David Parker

TL;DR本研究解决了在过渡概率未知分布的随机环境中学习马尔可夫决策过程(MDP)政策的挑战。提出了一种数据驱动的方法，通过构建区间MDP的模型近似，以合成在采样环境下表现良好的单一政策，并提供了在未知新环境中仍能满足性能要求的保障。研究结果展示了所提方法在多种基准测试中的高性能和鲁棒性，并量化了其相关风险。

Abstract

We present a data-driven approach for learning MDP policies that are robust across stochastic environments whose transition probabilities are defined by parameters with an unknown distribution. We produce probably approximately correct (PAC) guarantees for the performance of these lear

发现论文，激发创造

稳健MDP的严格贝叶斯模糊集

本文提出 RSVF 解决了传统 RO-MDP 方法计算策略过于保守的问题，该方法使用贝叶斯先验、优化模糊度集的大小和位置，并放宽了置信区间的要求，同时保证了安全性和实际应用价值。

Nov, 2018

超越置信区间: 坚实的贝叶斯不确定性集合用于强韧MDPs

通过采用贝叶斯推断优化模糊集的大小和位置，提出了一种新范式，无需使用置信区间作为模糊集，可在保证健壮性的同时获得更好的解，基于理论分析和实证结果表明其安全性和实用性。

Feb, 2019

通过生成模型实现鲁棒强化学习的样本复杂性

该研究提出了一种基于模型的强化学习算法，用于学习在标准和不确定的模型下最优的稳健控制策略，并考虑了不同形式的不确定性集合

Dec, 2021

基于非匹配生成模型的稳健马尔可夫决策过程的策略学习

利用模拟器训练代理人以学习强健的策略是解决医疗、自动驾驶等高风险环境下数据实验不可行的问题。本篇研究以生成模型的形式将训练环境表达，并提出了一种基于博弈论的算法解决了在测试中出现的扰动与环境不确定性的问题，得到了一个近似最优的强健决策。

Mar, 2022

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

强化学习中生成模型分布稳健性的研究

研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距，采用分布鲁棒马尔可夫决策过程的框架，在规定的不确定性集合范围内学习最优性能策略，对于不同的不确定性集合，分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性，结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习，而是依赖于不确定性集合的大小和形状。

May, 2023

正则化鲁棒MDPs和风险敏感MDPs：等价性，策略梯度和采样复杂度

论文探讨了基于强化学习的鲁棒性Markov决策问题，提出了风险敏感MDP和正则化鲁棒MDP之间的等价关系，并且导出用于正则化鲁棒MDP问题的策略梯度定理，提出了基于样本的离线学习算法RFZI来解决正则化鲁棒MDP问题，并分析了算法的样本复杂度。

Jun, 2023

健壮马氏决策过程中高效锐利的离策略评估

在环境变化、干扰函数估计不一致和有限样本学习的情况下，本研究旨在评估策略值，并提出了一种扰动模型，可以根据转移观测对传统 MDP 进行边界估计。

Mar, 2024

分布式健壮强化学习与交互式数据采集：基本难题与近似最优算法

通过交互式数据收集，我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题，为设计样本高效的算法提供了足够的条件，并伴随着尖锐的样本复杂性分析。

Apr, 2024

分布鲁棒离线强化学习的上下界

本文研究了离线强化学习中策略训练和部署环境不一致的问题。提出了一种新的算法We-DRIVE-U，能够在面对过渡动态的不确定性时，提供显著的平均次优性改进，并构建了首个信息论下界，表明该算法在任意不确定性水平下接近最优。该算法还通过“稀有切换”设计显著提高了计算效率。

Sep, 2024