自适应对冲

NIPSOct, 2011

Adaptive Hedge

Tim van Erven, Peter Grünwald, Wouter M. Koolen, Steven de Rooij

TL;DR本文介绍了一种基于 Hedge 算法且用于决策论在线学习的新方法 —— 自适应设置学习率，该方法在最坏情况下保证了最优表现，但在简单的情况下可以达到更小的错误率。除此之外，本文还提供了一项仿真研究，以比较自适应设置学习率方法与现有方法的优劣。

Abstract

Most methods for decision-theoretic online learning are based on the Hedge algorithm, which takes a parameter called the learning rate. In most previous analyses the →

decision-theoretic online learning hedge algorithm learning rate worst-case performance adaptive method

发现论文，激发创造

关于 Hedge 算法在随机制度下的最优性

研究了在线随机环境下的 Hedge 算法行为，证明了降低学习率的任何时候版本，能够同时适应较容易的随机问题和顶峰问题，并与其他变体算法的表现有质的差异，最终讨论了该算法的局限性和 Stochastic 情况下双重遗憾边界带来的改进。

Sep, 2018

乐观自适应拉格朗日对冲

介绍了一种基于 Lagrangian hedging 的在线算法（包括 regret-matching 和 hedge），通过引入 optimism 和 adaptive step size 对非对抗性问题进行了优化，并给出了相应的性能界限。

Jan, 2021

一个无需参数的对冲算法

本文聚焦于大量行动决策问题的决策理论在线学习（DTOL）。我们提出了一种全新无需参数的算法用于 DTOL，这解决了在线学习因无法在实际中优化设定学习率参数的困境。此外，我们引入了一种新的错误度量标准，该算法可以在此标准和以前的标准下实现优异的表现，接近以前有优化参数的最佳预算。

Mar, 2009

折扣自适应在线预测

在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念，我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法，改进了传统的非自适应算法，即使用固定学习率的梯度下降算法。具体而言，我们的理论保证不需要任何除了凸性之外的结构假设，该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测，我们进一步展示了这些好处，它是一个具有集合成员决策的下游在线学习任务。

Feb, 2024

将对抗保证与随机快速率结合应用于在线学习

本研究考虑在线学习算法在对抗环境中可以保证最坏情况下的后悔率，而在有利的随机环境下能够自适应地表现良好，并通过 Bernstein 条件量化随机环境的友好程度，证明了两种最近的算法自适应于随机环境的 Bernstein 参数，并证明这些算法在其各自的环境中都具有快速的期望和高概率率。

May, 2016

使用币赌博进行在线学习以适应变化环境

该论文提出了一种新的 “元” 算法，可以在在线学习环境中实现算法的快速适应，该算法对于同样时间复杂度的其他算法而言具有更好的强适应性后悔边界，并且在专家建议的学习及度量学习方面表现优异。

Nov, 2017

面向自适应对手的在线强盗学习：从遗憾到策略遗憾

该论文提出了当对手可以适应在线算法的动作时，标准遗憾定义变得不再有效，定义了替代的政策遗憾概念，用于测量在线算法在适应性对手下的性能，并研究了在线赌徒问题的情况，表明任何赌徒算法都无法针对带有无界内存的适应性对手保证次线性的政策遗憾，但同时提出了将标准遗憾限制在次线性边界以下的任何赌徒算法转换为政策遗憾限制在次线性边界以下的算法的一般技术，并将这一结果扩展到其他遗憾变体。

Jun, 2012

信息约束在线学习中的适应性

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019

在线优化：与动态比较器竞争

本文提出了一种完全自适应的方法，适用于在线学习中的动态比较基准，并且应用到了零和博弈中。

Jan, 2015

自适应在线学习

该论文提出了一种普遍框架，用于研究在线学习框架下的自适应遗憾界限，包括模型选择界限和数据相关界限；该框架基于顺序复杂度量的修正，并使用单侧尾不等式来界定此界限，并在线性优化和在线 PAC-Bayes 定理中进行了实例化。

Aug, 2015