无尺度在线学习

Jan, 2016

Scale-Free Online Learning

Francesco Orabona, Dávid Pál

TL;DR本文设计并分析了一种不需要任何上限或下限的在线线性优化算法，实现了适应损失向量范数的缩放不变性，并且通过 FTRL 和 MD 元算法实现了最优遗憾，并为无界决策集开发了一种非真空遗憾绑定的自适应算法，并对基于 MD 的无标度算法在无界域上的下限进行了研究。

Abstract

We design and analyze algorithms for online linear optimization that have optimal regret and at the same time do not need to know any upper or lower bounds on the norm of the loss vectors. Our algorithms are instances of the →

online linear optimization follow the regularized leader mirror descent regret bound scale invariance

发现论文，激发创造

在线线性优化的无标度算法

我们设计了一种在线线性优化算法，其具有最佳的遗憾度，并且不需要知道损失向量范数的上界或下界。通过尺度不变性，我们实现了对损失向量范数的适应性，即使损失向量序列乘以任意正常数，我们的算法仍会做出完全相同的决策。我们的算法适用于任何有界或无界决策集。对于无界决策集，这是第一个真正自适应的在线线性优化算法。

Feb, 2015

广义隐式 Follow-The-Regularized-Leader

该研究提出了一种新的在线学习算法，即广义隐式 FTRL，该算法扩展了 FTRL 框架的范围，可恢复已知算法，设计新的更新规则，直接改善遗憾的最坏情况的上界。

May, 2023

自适应（非）凸优化的模块化分析：乐观主义、复合目标和变分界限

本文通过引入新的后悔分解和 Bregman 散度的泛化来对在线学习的两个算法进行分析，得出了较为简洁的结论，提出了对于复合目标的算法，并提供了一种细化的算法族。

Sep, 2017

标准化网络学习

介绍了一种与特征尺度无关的在线学习算法，证明了存在依赖于数据中存在的比例而不是绝对尺度的遗憾界，从而不需要预处理数据，减少了测试时间和测试空间复杂度，并提高了算法的稳健性。

Aug, 2014

学习线性模型的自适应尺度不变在线算法

本研究解决在线学习中的参数调整问题，提出用于线性模型的算法，使其预测结果不受特征缩放的影响，并且在保持运行时性能的同时达到与使用最优学习率的 OGD 算法相同的遗憾界限。

Feb, 2019

线性预测中的跟随者和快速收敛：曲线约束集合和其他规律

研究了在线学习算法中的 Follow the Leader (FTL) 算法，证明在一定条件下即使未必为凸损失函数时，其仍可以表现出与曲率相似的性能，同时可以在保证最坏情况下得到良好的结果。

Feb, 2017

一种广义的在线镜像下降算法及其在分类和回归中的应用

本文提供了一种新的方法，将在线预测算法在线镜像下降推广到具有通用更新的时间变化正则化器，并演示了该方法的强大功能。

Apr, 2013

无标度对抗强化学习

该研究探讨了马尔可夫决策过程中的无标度学习问题，提出了一个通用的算法框架（SCB），并在对抗性多臂赌博机和对抗性马尔可夫决策过程中应用该框架，从而实现了无标度对抗性多臂赌博机的首个鲁棒（最小化）期望遗憾上界和首个高概率遗憾上界，并产生了第一个具有 $\tilde {\mathcal {O}}(\sqrt {T})$ 高概率遗憾保证的无标度强化学习算法。

Mar, 2024

在线非凸学习：跟随扰动领袖是最优的

研究基于非凸损失的在线学习问题，证明了经典的 Perturbed Leader 算法在该设置下可达到最佳遗憾率，进一步证明乐观的 FTPL 算法在序列损失可预测时的遗憾界更优。

Mar, 2019

自适应在线非随机控制

我们通过设计新的正则化技术，并将其与未经验证的未来成本预测相结合，实现了自适应于环境的 Non-stochastic Control 算法，这些算法通过考虑系统的内存具有新的数据自适应策略回归界限，并能在准确预测时收缩，即使全部失败时仍保持次线性。

Oct, 2023