通过极小极大对偶视角看最优遗憾的随机观点

Mar, 2009

通过极小极大对偶视角看最优遗憾的随机观点

A Stochastic View of Optimal Regret through Minimax Duality

Jacob Abernethy, Alekh Agarwal, Peter L. Bartlett, Alexander Rakhlin

TL;DR通过 von Neumann 最小极大定理，我们研究了在线凸优化游戏的最优策略的遗憾。我们证明了，在这种对抗性环境中，最优策略的遗憾与随机进程设置中经验最小化算法的行为密切相关：它等于最小期望损失的总和与最小经验损失之间的差的最大值。我们展示了最优策略的遗憾具有自然的几何解释，因为它可以被视为一个上凸函数的 Jensen 不等式中的差距。利用此表达式，我们对各种在线学习问题的最优策略给出了上下界限制。我们的方法提供了无需构建学习算法的上界，而提供了对抗者的明确最优策略的下界。

Abstract

We study the regret of optimal strategies for online convex optimization games. Using von Neumann's minimax theorem, we show that the optimal regret in this adversarial setting is closely related to the behavior

online convex optimization games regret empirical minimization algorithm stochastic process setting geometric interpretation

发现论文，激发创造

在线组合优化中的遗憾

本文研究使用二进制向量表示决策者可能的选择时的在线线性优化问题及其反悔，探讨了决策者在不同反馈条件下的最优反悔幅度，并提出了一种使用镜像下降算法和隐式归一化预测策略的解决方案，获得了半强盗情形的最优界限，同时也证明了在线组合优化基准算法的次优性。

Apr, 2012

无约束线性最优化的极小极大算法

本文研究了无约束在线线性优化博弈中最小化后悔的算法，其中对于一个有界比较器集合，得到了该博弈的解及其渐进行为，同时针对更宽松的惩罚函数提出了相应的算法并得到了渐进解。

Feb, 2013

一般和式马尔可夫博弈的遗憾最小化和均衡收敛

简而言之，本文提出了一种针对广义和博弈的、分散、计算高效的算法，其保证所有代理都使用时可以提供次线性遗憾保证，并且不需要代理之间的通信。该算法的主要观察结果是，通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。

Jul, 2022

经验熵、最小化后悔和最小化风险

关于随机设计回归模型的统计学习研究，我们提出了一种聚合经验最小值的方法，并建立了其风险的尖锐 Oracle 不等式，进一步证明了在良好规定的模型下，统计估计和在错误规定的模型下的统计后悔的速率等价的结论。

Aug, 2013

非凸博弈中高效的遗憾最小化

本文探讨了在非凸损失函数的重复博弈中如何最小化遗憾，并给出了基于梯度下降的方法来实现最优遗憾并保证收敛到平衡点。

Jul, 2017

学习与专家建议的极小化遗憾最优非渐进下界

非渐近下界成立于 Gaussian 变量和随机行走的最大值的期望中，这些下界均为极限状态下的最优主导常数，文中的在线学习应用也得到了非渐近下界的成立。

Nov, 2015

针对零阶对抗性 Bandit 凸优化的改进遗憾

以信息论为基础，改进探索性分布以在零阶对抗性 bandit 凸优化的 minimax regret 的信息理论上界上证明其为 O (d^{2.5} 根号 n 对数 (n))，并提高 Bubeck 等人 (2017) 的 O (d^{9.5} 根号 n 对数 (n)^{7.5} 上界。

May, 2020

具备对抗成本和已知转移的随机最短路径最小化遗憾

研究用 Online Mirror Descent 框架的各种新技术，包括改进的多尺度专家算法、从一般随机最短路径到特殊无环情况的降低、倾斜的占用度量空间以及添加到成本估计器的新校正项等，以解决带对手成本的随机最短路径问题并同时减小学习者方差和最优策略的偏差。

Dec, 2020

在线线性优化带赌博式反馈的极小极大政策

该研究提出了在线线性优化问题的带有 bandit 反馈的算法，并使用 Mirror Descent 算法在特定案例中获得具有最小二乘优化后退限制的计算高效性的策略，证明了计算上以及最小二乘上的结果优化，为输出结果减少了冗余的符号。

Feb, 2012

静态和动态遗憾最小化之间的等价关系

动态遗憾最小化在在线凸优化中是一个重要问题。本文提出了一个新的统一框架来分析和设计这些算法，证明了适应任意比较序列的动态遗憾达到 O (根号下 T 总和的局部平滑化平方路径长度) 的算法是可行的，并且提供了一个替代路径长度计算方式的新概念来实现更好的适应性。

Jun, 2024