优化最小后悔度的无监督环境设计

Feb, 2024

优化最小后悔度的无监督环境设计

Refining Minimax Regret for Unsupervised Environment Design

Michael Beukman, Samuel Coward, Michael Matthews, Mattie Fellows, Minqi Jiang...

TL;DR无监督环境设计中，使用基于后悔最小化的最小极大后悔 (BLP) 目标进行训练，通过算法 ReMiDi 实现回报最小化，克服了智能体在极大后悔对手生成的环境配置中学习停滞的问题。

Abstract

In unsupervised environment design, reinforcement learning agents are trained on environment configurations (levels) generated by an adversary that maximises some objective. Regret is a commonly used objective th

unsupervised environment design reinforcement learning agents regret minimization bayesian level-perfect mmr algorithm remidi

发现论文，激发创造

基于极小化遗憾优化的不确定马尔可夫决策过程鲁棒规划

本文旨在通过引入一种 Bellman 方程式来计算政策的懊悔，提出了一种基于动态规划算法的方法，以便为具有不确定成本和转移函数的 SSP UMDPs 规划，该方法精确地优化了具有独立不确定性的 UMDPs 的最小化极大遗憾，并通过选项扩展了该方法，以使计算和解决方案质量之间存在权衡。在人造和实际领域中评估我们的方法，显示它明显优于现有的基线。

Dec, 2020

迎合挑剔的顾客：多目标强化学习的遗憾界与探索复杂度

提出一种基于马尔可夫决策过程的实现多目标强化学习的模型，针对不确定性的 reward 函数，使用内积方法建立了一种新的衡量指标，探讨了在线学习以及基于 Preference-free exploration 的学习方式，并提出了一种轨迹复杂度几乎最优的算法。

Nov, 2020

通过极小极大对偶视角看最优遗憾的随机观点

通过 von Neumann 最小极大定理，我们研究了在线凸优化游戏的最优策略的遗憾。我们证明了，在这种对抗性环境中，最优策略的遗憾与随机进程设置中经验最小化算法的行为密切相关：它等于最小期望损失的总和与最小经验损失之间的差的最大值。我们展示了最优策略的遗憾具有自然的几何解释，因为它可以被视为一个上凸函数的 Jensen 不等式中的差距。利用此表达式，我们对各种在线学习问题的最优策略给出了上下界限制。我们的方法提供了无需构建学习算法的上界，而提供了对抗者的明确最优策略的下界。

Mar, 2009

反馈图网络在线学习：损失函数的真实形态

本论文主要介绍了一种基于反馈图的顺序学习问题，提出了一个名为 problem complexity 的新概念，并创建了一个既定算法，实现了对此设置的最小化失望度量的最优解。

Jun, 2023

基于遗憾的优化方法用于强化学习的鲁棒性

该论文提出一种更为积极的方法改进深度强化学习中的强健性，采用最小化最大后悔作为优化方法，并证明该方法可显著提高性能。

Feb, 2023

在平均回报 MDPs 中实现可行的最小最优后悔

这篇论文介绍了一种具有最小最大后悔度的可行算法，该算法通过使用一种新颖的子程序，即 Projected Mitigated Extended Value Iteration（PMEVI），来高效地计算偏差受限最优策略。同时，该算法不需要先前关于偏差函数的信息。

Jun, 2024

在线组合优化中的遗憾

本文研究使用二进制向量表示决策者可能的选择时的在线线性优化问题及其反悔，探讨了决策者在不同反馈条件下的最优反悔幅度，并提出了一种使用镜像下降算法和隐式归一化预测策略的解决方案，获得了半强盗情形的最优界限，同时也证明了在线组合优化基准算法的次优性。

Apr, 2012

绿色安全中极小后悔的强化学习

该研究旨在针对绿色安全领域中的不确定性制定有韧性的顺序巡逻计划，以解决对保护者来说具有威慑效应的问题，并提出了一种基于强化学习的算法来找到一个更加稳健的决策策略。

Jun, 2021

顺序任务设置中最小化局部遗憾的谬误

强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。

Mar, 2024

多种最佳臂的遗憾问题

本篇论文旨在应对多臂赌博机问题中存在多个最优 / 近似最优机械臂的后悔最小化问题，通过提出自适应算法来自动适应问题的难度，并在理论和实验方面展现了该算法的优越性。

Jun, 2020