通过最小化强鲁棒性基线遗憾实现安全策略改进

Jul, 2016

通过最小化强鲁棒性基线遗憾实现安全策略改进

Safe Policy Improvement by Minimizing Robust Baseline Regret

Marek Petrik, Yinlam Chow, Mohammad Ghavamzadeh

TL;DR该研究论文提出一种基于模型的方法，使用有限数据计算安全策略，并使用已知的准确性保证对系统的不准确动态模型进行分析，以直接最小化关于基线策略的（负）遗憾，从而改进基础策略并在准确动态的情况下连续地使用，在遇到不准确动态的情况下无缝地回退到基线策略。

Abstract

An important problem in sequential decision-making under uncertainty is to use limited data to compute a safe policy, i.e., a policy that is guaranteed to perform at least as well as a given baseline strategy. In

sequential decision-making safe policy model-based approach regret minimization inaccurate dynamics model

发现论文，激发创造

动态环境下的遗憾最优控制

考虑线性时变动态系统中的控制问题，使用后悔最小化的方法设计在线控制器，通过一个新的降阶到 H∞控制的方法导出了后悔最优控制器的状态空间结构，并给出了能量干扰下的紧密数据相关的后悔上界。

Oct, 2020

具有单调性约束的安全贝叶斯优化的无懊悔算法

我们研究如何在未知安全函数约束下，顺序最大化未知函数的问题，并提出了一种算法来实现亚线性遗憾的搜索

Jun, 2024

使用函数遗憾估计来解决游戏

本文提出了一种新的在线学习方法，用于在大型 extensive-form 游戏中最小化后悔。该方法通过在线学习函数逼近器来估计选择特定行动的后悔值，并使用无悔算法根据这些估计值来定义一系列策略。我们证明了该方法的正确性，并证明了只要逼近函数能够实现后悔值，方法就能自我学习并收敛到纳什均衡。我们的技术可以被理解为现有大型游戏中抽象工作的原则性推广；在我们的工作中，抽象和均衡都是在自我博弈中学习的。我们在实验中展示了该方法可以在相同资源条件下实现比最先进的抽象技术更高质量的策略。

Nov, 2014

基于遗憾的优化方法用于强化学习的鲁棒性

该论文提出一种更为积极的方法改进深度强化学习中的强健性，采用最小化最大后悔作为优化方法，并证明该方法可显著提高性能。

Feb, 2023

未知约束的在线学习

在线学习中最小化后悔，满足安全约束的广义元算法，估计未知的安全约束，并将在线学习预测转化为满足未知安全约束的预测，同时使用预测误差、各类模型的复杂度和新的复杂度度量来界定算法的后悔上限，同时提供了线性约束情况下的具体算法，使用比例变换平衡乐观探索和悲观约束满足，最小化根号 T 的后悔。

Mar, 2024

混淆鲁棒政策改进

研究使用观察数据学习个性化决策策略时如何考虑可能的未观测混杂因素以及最小化候选策略的最坏估计后悔的方法和算法，以在保证安全和关注证据改进的前提下得到可靠的个性化治疗策略。

May, 2018

控制中的安全探索鲁棒回归

研究在序列控制问题中的安全学习和探索问题，提出了一种深度健壮回归模型来预测安全探索的不确定性界限，证明了该方法在难以指定好的高斯过程先验的情况下优于传统的基于高斯过程的安全探索方法。

Jun, 2019

基于极小化遗憾优化的不确定马尔可夫决策过程鲁棒规划

本文旨在通过引入一种 Bellman 方程式来计算政策的懊悔，提出了一种基于动态规划算法的方法，以便为具有不确定成本和转移函数的 SSP UMDPs 规划，该方法精确地优化了具有独立不确定性的 UMDPs 的最小化极大遗憾，并通过选项扩展了该方法，以使计算和解决方案质量之间存在权衡。在人造和实际领域中评估我们的方法，显示它明显优于现有的基线。

Dec, 2020

软基线增强的安全策略改进

本文通过采用基于基线的自举算法 (SPIBB)，允许在更广泛的策略集合上进行策略搜索，通过控制局部模型不确定性来约束政策变化，对捕获不良行为的风险进行更全面的评估，实验结果表明相对于现有的 SPI 算法，本文提出的方法在有限 MDP 和具有神经网络函数近似的无限 MDP 上均有显着提高。

Jul, 2019

未知序贯决策问题和游戏的无模型在线学习

提出了一种适用于黑盒环境的极限情况的后悔最小化算法，通过以前保证仅实现的限制来实现亚线性的后悔率，并将其应用于逼近 Nash 均衡，学习最佳反应以及安全的对手利用等问题。

Mar, 2021