在线学习中 FTRL 的简单自适应学习率与 Θ(T^{2/3}) 的最小 max 遗憾及其在最佳两全之间的应用

May, 2024

在线学习中 FTRL 的简单自适应学习率与 Θ(T^{2/3}) 的最小 max 遗憾及其在最佳两全之间的应用

A Simple and Adaptive Learning Rate for FTRL in Online Learning with Minimax Regret of $Θ(T^{2/3})$ and its Application to Best-of-Both-Worlds

PDF

Taira Tsuchiya, Shinji Ito

TL;DR通过设计自适应的正则化器和学习率，FTRL 是一个强大的框架，适用于各种在线学习问题。本文提出了一个新的自适应学习率框架来解决具有 Θ(T^{2/3}) 最小最大遗憾的问题，并应用于部分监控和图形赌博两个重要的间接反馈问题。

Abstract

follow-the-regularized-leader (FTRL) is a powerful framework for various online learning problems. By designing its regularizer and learning rate to be adaptive to past observations, FTRL is known to work adaptively to various properties of an underlying environment. However, most exis

follow-the-regularized-leader adaptive learning rates minimax regret partial monitoring graph bandits

发现论文，激发创造

Follow-the-Regularized-Leader 竞争比分析及最佳学习率自适应

Follow-The-Regularized-Leader (FTRL) 在在线学习中是一种有效且多功能的方法，调整其学习率的问题被形式化为序贯决策问题，并引入了竞争分析的框架。我们提出的学习率更新规则通过与竞争比率的下限相差一个常数因子来达到上限的目的，对于惩罚项的组成部分进行（近似）单调性的刻画，并针对一些特定环境构建了 BOBW 算法，从而在多臂赌博机、图赌博机、线性赌博机和上下文赌博机等不同设置下取得更紧的后悔界限和更广泛的算法适用性。

Mar, 2024

稳定性惩罚自适应 Follow-the-regularized-leader：稀疏性，游戏依赖性与双重优势

研究自适应学习率对于解决实际问题的重要性，在此基础上提出了一个新的自适应学习率 ——Stability-Penalty-Adaptive (SPA)，可以进一步推广 Follow-the-Regularized-Leader (FTRL) 算法。该算法可以带来三种不同类型的自适应性：稀疏性、游戏依赖性和最佳方案等，其中，FTRL 算法常常用于求解棘手的多臂赌博问题，但现有算法假定稀疏性水平事先已知，新提出的学习率框架可以解决其不确定性，同时，该框架还可用于制定部分监督策略，并能同时实现 BOBW 算法和游戏依赖性的 bound。

May, 2023

医生对口罩使用的结论：有用但需辩证看待

本研究提出了一种广义的最好结果算法以及如何通过规范化导向跟随和在线镜像下降算法实现在线学习中的最好结果，将这种算法应用于上下文、图和表马尔科夫决策过程中。

Feb, 2023

关于具备反馈图的在线学习的最小化后悔算法

本文针对具有强可观测无向反馈图的在线学习问题，在回报上下界方面进行了改进，并使用 FTRL 与 q-Tsallis 熵对结果进行了证明；同时扩展了该技术应用于时间变化图的情形，并提供了适用于所有 alpha>1 的改良下界。

May, 2023

广义隐式 Follow-The-Regularized-Leader

该研究提出了一种新的在线学习算法，即广义隐式 FTRL，该算法扩展了 FTRL 框架的范围，可恢复已知算法，设计新的更新规则，直接改善遗憾的最坏情况的上界。

May, 2023

组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析

本文提出了 Follow The Regularized Leader (FTRL) 算法并应用于在线学习中，通过分离延迟反馈成本和赌博反馈成本，得出了在三种不同的情况下的新结果，包括组合半赌博、带延迟的对抗 Markov 决策过程以及带权值的线性赌博。我们的新型遗憾分解显示 FTRL 在正则化程序的 Hessian 矩阵上的温和假设下，可在多轮中保持稳定，并为线性赌徒提供了一种有效算法和接近最优的遗憾限制。

May, 2023

带有弗雷歇特 - 类型尾部分布的跟随扰动领导者：对抗性赌博机中的最优性和最佳选择之间的折衷

本文研究了在对抗性和随机的 K 臂赌博机中，随机扰动策略（Follow-the-Perturbed-Leader）的最优性。我们建立了对于扰动实现 O (√KT) 遗憾的充分条件，并展示了随机扰动策略在具有特定尾部分布的情况下实现的最佳两者能力。

Mar, 2024

最佳选择：具备未知转移的随机与对抗式序列决策问题（MDP）

研究了通过 T 个 episode 学习马尔可夫决策过程中两全其美的问题，提出了一种新的变换，将方法从已知转移推广到未知转移下，并使得转移估计错误上界为多项式级别。

Jun, 2021

无尺度在线学习

本文设计并分析了一种不需要任何上限或下限的在线线性优化算法，实现了适应损失向量范数的缩放不变性，并且通过 FTRL 和 MD 元算法实现了最优遗憾，并为无界决策集开发了一种非真空遗憾绑定的自适应算法，并对基于 MD 的无标度算法在无界域上的下限进行了研究。

Jan, 2016

在线非凸学习：跟随扰动领袖是最优的

研究基于非凸损失的在线学习问题，证明了经典的 Perturbed Leader 算法在该设置下可达到最佳遗憾率，进一步证明乐观的 FTPL 算法在序列损失可预测时的遗憾界更优。

Mar, 2019