自适应在线学习

Aug, 2015

Adaptive Online Learning

Dylan J. Foster, Alexander Rakhlin, Karthik Sridharan

TL;DR该论文提出了一种普遍框架，用于研究在线学习框架下的自适应遗憾界限，包括模型选择界限和数据相关界限；该框架基于顺序复杂度量的修正，并使用单侧尾不等式来界定此界限，并在线性优化和在线 PAC-Bayes 定理中进行了实例化。

Abstract

We propose a general framework for studying adaptive regret bounds in the online learning framework, including model selection bounds and

adaptive regret bounds online learning framework data-dependent bounds model selection bounds sequential complexity measures

发现论文，激发创造

在线到 PAC 转换：通过遗憾分析获得泛化界

本文提出了从在线学习的角度推导统计学习算法的泛化界限的新框架，建立在线学习算法与统计学习算法之间的联系，通过构造一种在线学习游戏来实现该框架并得到多种泛化保证。

May, 2023

通过顺序预测器获得高概率风险边界

在线学习方法在最小假设下产生顺序遗憾界限，并为统计学习提供期望风险界限；然而，最近的研究结果表明，在许多重要情况下，遗憾界限可能无法保证统计背景下紧致的高概率风险界限。本研究通过将通用在线学习算法应用于在线到批次转换，通过对定义遗憾的损失函数进行一般的二阶校正，获得了几个经典统计估计问题（如离散分布估计、线性回归、逻辑回归和条件密度估计）的几乎最优的高概率风险界限；我们的分析依赖于在线学习算法的不恰当性，因为它们不限制使用给定参考类别的预测器；我们的估计器的不恰当性使得在各种问题参数上显著改善了依赖；最后，我们讨论了我们的顺序算法与现有批处理算法之间的一些计算上的优势。

Aug, 2023

在线凸优化的自适应边界优化

本文提出了一种新的在线凸优化算法，该算法根据迄今为止观察到的损失函数自适应地选择其正则化函数，其遗憾界是最坏情况下最优的，并且对于某些实际损失函数类别，它们比现有界限好得多。此算法不需要事先了解问题实例的结构，但提供了一定程度的竞争保证，并在范围内提供了一定程度的界限。

Feb, 2010

折扣自适应在线预测

在线学习不仅仅是记住一切。通过使用自适应在线学习中近期开发的技术重新审视折扣遗憾的经典概念，我们提出了一个能够优雅地在新数据到达时遗忘历史的关键算法，改进了传统的非自适应算法，即使用固定学习率的梯度下降算法。具体而言，我们的理论保证不需要任何除了凸性之外的结构假设，该算法在次优超参数调整时可以证明是鲁棒的。通过在线符合预测，我们进一步展示了这些好处，它是一个具有集合成员决策的下游在线学习任务。

Feb, 2024

在线优化：与动态比较器竞争

本文提出了一种完全自适应的方法，适用于在线学习中的动态比较基准，并且应用到了零和博弈中。

Jan, 2015

部分可观察线性动力系统的对数遗憾界

研究如何在部分可观测线性动态系统中进行系统识别和自适应控制，提出了一种基于模型评估的自适应控制在线学习算法，可通过与环境的交互来估计模型动态，通过在线梯度下降更新控制器并改善控制器效能，该算法达到了未知系统的自适应控制的 Polylog (T) 的遗憾上限。

Mar, 2020

非平稳在线学习的高效方法

优化非稳态动态损失和自适应损失的有效方法涉及非稳态在线学习的减少投影和梯度查询次数，在参数自由在线学习的基础上进行了非平凡的改进。

Sep, 2023

通过强适应在线学习改进在线置信预测

研究在线情况下的不确定性量化问题，提出新的自适应后悔最小化算法用于在线共形预测，证明了该方法实现了近似最优的自适应后悔和适当的预测覆盖，同时在时间序列预测和图像分类等实际任务上对现有方法具有明显的优势。

Feb, 2023

信息约束在线学习中的适应性

研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响；提出了一种算法用于处理标签有效预测的问题，并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域，显著提高了现有算法的性能。

Oct, 2019

动态环境下的自适应在线学习

本文研究动态环境下的在线凸优化问题，通过提出一种自适应学习的方法 Ader，利用专家跟踪算法结合一组专家来最小化动态遗憾，并扩展到可用于表征比较器的动态模型序列的情形。

Oct, 2018