组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析

May, 2023

组合半匪谷、线性匪谷和 MDP 的非随机延迟反馈的统一分析

A Unified Analysis of Nonstochastic Delayed Feedback for Combinatorial Semi-Bandits, Linear Bandits, and MDPs

Dirk van der Hoeven, Lukas Zierahn, Tal Lancewicki, Aviv Rosenberg, Nicoló Cesa-Bianchi

TL;DR本文提出了 Follow The Regularized Leader (FTRL) 算法并应用于在线学习中，通过分离延迟反馈成本和赌博反馈成本，得出了在三种不同的情况下的新结果，包括组合半赌博、带延迟的对抗 Markov 决策过程以及带权值的线性赌博。我们的新型遗憾分解显示 FTRL 在正则化程序的 Hessian 矩阵上的温和假设下，可在多轮中保持稳定，并为线性赌徒提供了一种有效算法和接近最优的遗憾限制。

Abstract

We derive a new analysis of follow the regularized leader (FTRL) for online learning with delayed bandit feedback. By separating the cost of delayed feedback from that of bandit feedback, our analysis allows us t

follow the regularized leader online learning delayed bandit feedback regret bounds linear bandits

发现论文，激发创造

任意延迟下对抗性赌博机的最优算法

提出一个新的算法，针对有无限延迟的对抗多臂老虎机问题，该算法是基于一种新型的混合规则制定的，采用 Follow the Regularized Leader (FTRL) 框架，可实现 $O (\sqrt {kn}+\sqrt {D\log (k)})$ 的遗憾保证，并且不需要预先了解 $n$ 或 $D$, 还提出了一种新的调优算法，遗憾保证可达到 $O (\sqrt {kn}+\min_{S}|S|+\sqrt {D_{\bar S}\log (k)})$，用于解决了 Thune 等人 (2019) 提出的未解决问题。

Oct, 2019

带有复合匿名反馈的非随机赌博机

研究非随机赌博环境下的遗憾界，提出了基于 FTRL with Tsallis entropy 的算法转化方法。

Dec, 2021

广义隐式 Follow-The-Regularized-Leader

该研究提出了一种新的在线学习算法，即广义隐式 FTRL，该算法扩展了 FTRL 框架的范围，可恢复已知算法，设计新的更新规则，直接改善遗憾的最坏情况的上界。

May, 2023

具有随机延迟反馈的线性赌博机

该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS，并通过实验验证了其性能，其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。

Jul, 2018

一种高效的半强化反馈学习算法

研究在线组合优化问题下的半强化反馈，提出了一种结合 FPL 预测方法和新颖的损失估计程序（称为 Geometric Resampling）的学习算法，并且在能够进行高效离线组合优化的任何决策集合上可以有效实现。假设决策集合的元素可以用至多 m 个非零项的 d 维二进制向量来描述，证明了我们算法的期望遗憾在 T 轮后是 O (m sqrt (dT log d))，并且在全信息设置中也改进了 FPL 的最佳遗憾限制。

May, 2013

Follow-the-Regularized-Leader 竞争比分析及最佳学习率自适应

Follow-The-Regularized-Leader (FTRL) 在在线学习中是一种有效且多功能的方法，调整其学习率的问题被形式化为序贯决策问题，并引入了竞争分析的框架。我们提出的学习率更新规则通过与竞争比率的下限相差一个常数因子来达到上限的目的，对于惩罚项的组成部分进行（近似）单调性的刻画，并针对一些特定环境构建了 BOBW 算法，从而在多臂赌博机、图赌博机、线性赌博机和上下文赌博机等不同设置下取得更紧的后悔界限和更广泛的算法适用性。

Mar, 2024

带有 Bandit 反馈的对抗性马尔可夫决策过程中的随机扰动领袖策略

通过研究 Follow-the-Perturbed-Leader 算法在 Adversarial Markov Decision Processes 中的应用，作者发现该算法不仅在有限时间内能够实现近似最优的 regret bound，并且能够有序地处理 Delayed Bandit Feedback 问题，并且进一步提出了第一个无悔学习算法来解决在无限时间内、使用有限的 bandit feedback 和随机转移的情况下解决 AMDPs 问题。

May, 2022

在线学习中 FTRL 的简单自适应学习率与 Θ(T^{2/3}) 的最小 max 遗憾及其在最佳两全之间的应用

通过设计自适应的正则化器和学习率，FTRL 是一个强大的框架，适用于各种在线学习问题。本文提出了一个新的自适应学习率框架来解决具有 Θ(T^{2/3}) 最小最大遗憾的问题，并应用于部分监控和图形赌博两个重要的间接反馈问题。

May, 2024

稳定性惩罚自适应 Follow-the-regularized-leader：稀疏性，游戏依赖性与双重优势

研究自适应学习率对于解决实际问题的重要性，在此基础上提出了一个新的自适应学习率 ——Stability-Penalty-Adaptive (SPA)，可以进一步推广 Follow-the-Regularized-Leader (FTRL) 算法。该算法可以带来三种不同类型的自适应性：稀疏性、游戏依赖性和最佳方案等，其中，FTRL 算法常常用于求解棘手的多臂赌博问题，但现有算法假定稀疏性水平事先已知，新提出的学习率框架可以解决其不确定性，同时，该框架还可用于制定部分监督策略，并能同时实现 BOBW 算法和游戏依赖性的 bound。

May, 2023

广义线性赌博机中的延迟反馈：重访

本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Jul, 2022