利用硬币投注改进强适应在线学习

Oct, 2016

利用硬币投注改进强适应在线学习

Improved Strongly Adaptive Online Learning using Coin Betting

Kwang-Sung Jun, Francesco Orabona, Rebecca Willett, Stephen Wright

TL;DR本文提出了一种新的无需额外参数的在线学习算法，适用于不断变化的环境，并获得了至少 sqrt (log (T)) 倍于已有算法的强适应性遗憾界。经实验证明，在专家建议和度量学习场景中，我们的算法优于现有的最先进方法。

Abstract

This paper describes a new parameter-free online learning algorithm for changing environments. In comparing against algorithms with the same time complexity as ours, we obtain a strongly →

online learning changing environments adaptive regret bound expert advice metric learning

发现论文，激发创造

使用币赌博进行在线学习以适应变化环境

该论文提出了一种新的 “元” 算法，可以在在线学习环境中实现算法的快速适应，该算法对于同样时间复杂度的其他算法而言具有更好的强适应性后悔边界，并且在专家建议的学习及度量学习方面表现优异。

Nov, 2017

加密币赌注与无需参数的在线学习

该研究在 Hilbert 空间中，通过预测对手行为的赌博机制构建了一种简单的无需调参数的学习算法，用于在线线性现行优化和专家建议学习，实现了优质的后悔约束和分析复杂度。

Feb, 2016

自适应对冲

本文介绍了一种基于 Hedge 算法且用于决策论在线学习的新方法 —— 自适应设置学习率，该方法在最坏情况下保证了最优表现，但在简单的情况下可以达到更小的错误率。除此之外，本文还提供了一项仿真研究，以比较自适应设置学习率方法与现有方法的优劣。

Oct, 2011

在线优化：与动态比较器竞争

本文提出了一种完全自适应的方法，适用于在线学习中的动态比较基准，并且应用到了零和博弈中。

Jan, 2015

折扣自适应在线预测

在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念，我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法，改进了传统的非自适应算法，即使用固定学习率的梯度下降算法。具体而言，我们的理论保证不需要任何除了凸性之外的结构假设，该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测，我们进一步展示了这些好处，它是一个具有集合成员决策的下游在线学习任务。

Feb, 2024

乐观自适应拉格朗日对冲

介绍了一种基于 Lagrangian hedging 的在线算法（包括 regret-matching 和 hedge），通过引入 optimism 和 adaptive step size 对非对抗性问题进行了优化，并给出了相应的性能界限。

Jan, 2021

强适应性在线学习

本文介绍强适应算法及标准低遗憾算法转化为强适应算法的重要性，同时提供了用于解决多种问题的简单而有效的强适应算法。

Feb, 2015

信息约束在线学习中的适应性

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019

动态环境下的自适应在线学习

本文研究动态环境下的在线凸优化问题，通过提出一种自适应学习的方法 Ader，利用专家跟踪算法结合一组专家来最小化动态遗憾，并扩展到可用于表征比较器的动态模型序列的情形。

Oct, 2018

将对抗保证与随机快速率结合应用于在线学习

本研究考虑在线学习算法在对抗环境中可以保证最坏情况下的后悔率，而在有利的随机环境下能够自适应地表现良好，并通过 Bernstein 条件量化随机环境的友好程度，证明了两种最近的算法自适应于随机环境的 Bernstein 参数，并证明这些算法在其各自的环境中都具有快速的期望和高概率率。

May, 2016