关于 Hedge 算法在随机制度下的最优性

Sep, 2018

关于 Hedge 算法在随机制度下的最优性

On the optimality of the Hedge algorithm in the stochastic regime

Jaouad Mourtada, Stéphane Gaïffas

TL;DR研究了在线随机环境下的 Hedge 算法行为，证明了降低学习率的任何时候版本，能够同时适应较容易的随机问题和顶峰问题，并与其他变体算法的表现有质的差异，最终讨论了该算法的局限性和 Stochastic 情况下双重遗憾边界带来的改进。

Abstract

In this paper, we study the behavior of the hedge algorithm in the online stochastic setting. We prove that anytime Hedge with decreasing learning rate, which is one of the simplest algorithm for the problem of p

hedge algorithm online stochastic learning rate optimal regret prediction with expert advice

发现论文，激发创造

自适应对冲

本文介绍了一种基于 Hedge 算法且用于决策论在线学习的新方法 —— 自适应设置学习率，该方法在最坏情况下保证了最优表现，但在简单的情况下可以达到更小的错误率。除此之外，本文还提供了一项仿真研究，以比较自适应设置学习率方法与现有方法的优劣。

Oct, 2011

乐观自适应拉格朗日对冲

介绍了一种基于 Lagrangian hedging 的在线算法（包括 regret-matching 和 hedge），通过引入 optimism 和 adaptive step size 对非对抗性问题进行了优化，并给出了相应的性能界限。

Jan, 2021

将对抗保证与随机快速率结合应用于在线学习

本研究考虑在线学习算法在对抗环境中可以保证最坏情况下的后悔率，而在有利的随机环境下能够自适应地表现良好，并通过 Bernstein 条件量化随机环境的友好程度，证明了两种最近的算法自适应于随机环境的 Bernstein 参数，并证明这些算法在其各自的环境中都具有快速的期望和高概率率。

May, 2016

两个专家的最佳即时遗憾

研究专家建议的预测问题，设计了迄今为止首个最小化后悔的最小极大算法，通过随机微积分的思想并考虑一个连续问题的模拟来解决。

Feb, 2020

游戏中的套期保值：外部和换手遗憾更快的收敛

本文研究了 Hedge 算法在 n 操作游戏中的运行，得出 Hedge 算法的乐观版本的遗憾率以及基础 Hedge 的收敛速率，对于多人游戏，我们使用 Blum 和 Mansour 的经典算法寻找均衡从而得到了我们的结果。

Jun, 2020

博弈中的学习：快速收敛的稳健性

本论文证明具有低拟近似遗憾性质的学习算法在大类重复博弈中具有快速收敛到近似最优解的能力，包括使用基本对冲算法的算法。此外，作者对之前的结果进行了优化，并将该框架应用于动态人口博弈，并在大小和时间复杂度方面取得了改进。作者还提出了一种新的算法用于泊松回报任务，在效率和小损失方面都更有吸引力。

Jun, 2016

折扣自适应在线预测

在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念，我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法，改进了传统的非自适应算法，即使用固定学习率的梯度下降算法。具体而言，我们的理论保证不需要任何除了凸性之外的结构假设，该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测，我们进一步展示了这些好处，它是一个具有集合成员决策的下游在线学习任务。

Feb, 2024

面向未知时间范围的极小极大在线学习

在未知时间的在线学习中，我们应用最小二乘分析，提出了一种新的自适应算法，该算法可以应用于在线凸优化，追随摇摆的领导者，指数权重算法和一阶界，实验表明在在线线性优化方面，我们的算法表现优于许多其他现有算法。

Jul, 2013

具备预测和转换成本的在线优化：快速算法和基本极限

本文研究了具有有限预测窗口和附加决策切换成本的在线优化问题。提出了两种基于梯度的在线算法：RHGD 和 RHAG。该文章报告了这些算法的动态遗憾的上限，并且发现我们的基于梯度的 RHAG 算法是一种接近最优的在线算法。

Jan, 2018

有限随机部分监控的自适应算法

本文提出了一种新的随时算法，实现了对于有限的随机部分监测任何实例的近似最优遗憾，特别是对于 “容易” 和 “困难” 问题，该新算法在对数因子内实现了极小化遗憾。对于容易的问题，它还实现了对数个体遗憾。最重要的是，该算法在对手策略位于策略空间的 “容易区域” 时是自适应的。作为一个推论，我们展示了在一些合理的额外假设下，此算法在动态定价 (Dynamic Pricing) 中具有 O (根号 T) 的遗憾，该问题由 Bartok et al.(2011) 被证明是困难的。

Jun, 2012