非平稳广义线性赌博机算法

Mar, 2020

Algorithms for Non-Stationary Generalized Linear Bandits

Yoan Russac, Olivier Cappé, Aurélien Garivier

TL;DR本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法，以解决在非静态环境下的上下文在线学习和塞德利反馈问题，这些结果表明这些算法在一般的情境序列下，并且存在突然变化时具有高概率的上限置信度边界，证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。

Abstract

The statistical framework of generalized linear models (GLM) can be applied to sequential problems involving categorical or ordinal rewards associated, for instance, with clicks, likes or ratings. In the example of binary rewards, logistic regression is well-known to be preferable to t

generalized linear models online learning bandit feedback upper confidence bound dynamic regret

发现论文，激发创造

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

带遗忘的广义线性赌博机的自共轭分析

本文提出了一种基于置信度的算法来处理自适应遗忘的自共轭概率线性泊松广义线性臂问题（GLB），并分析了其在突然变化环境中的性能，结果表明该方法有望解决 GLB 中的非平稳性问题。

Nov, 2020

非平稳环境下的加权线性赌博机

该研究利用 D-LinUCB 算法解决了随机线性 bandit 模型中的非平稳线性回归模型，通过使用加权最小二乘估计器进行序列预测，同时提供了理论保证和实验表现。

Sep, 2019

广义线性赌臂机在参数漂移下的遗憾界

本文探究了广义线性 Bandits 在非稳态环境中的应用，比如参数漂移等问题，提出了一种新增添的算法，基于动态问题的推断，解决了广义线性 Bandits 在非稳态环境下表现出的缺陷，拥有了更优秀的性能表现。通过对于动态问题投影过程的修改，我们设计出了一种具有结构性特点的算法。经过实验证明，我们的算法达到了更好的性能表现。

Mar, 2021

广义线性赌博机中的延迟反馈：重访

本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Jul, 2022

广义线性背景臂机情境下的有限适应度最优遗憾

我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型：具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型，我们建立了本质上紧密的遗憾上界。值得注意的是，在我们获得的上界中，我们成功消除了关键参数 kappa 的依赖性，该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法 B-GLinCB，使用 Ω(log (log T)) 批次，遗憾的规模为 Φ(O (√T)). 此外，我们建立了我们的罕见切换算法 RS-GLinCB 最多更新策略 Φ(O (log^2 T)) 次，并实现了 Φ(O (√T)) 的遗憾。我们消除广义线性情景赌博对 kappa 的依赖的方法可能具有独立的兴趣。

Apr, 2024

广义线性赌臂问题的高效算法：在线随机梯度下降和汤普森抽样

本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法，它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索，能够在探索与利用之间取得平衡，在合成和实际数据集上始终优于现有算法，其总时间复杂度为 T 和 d 的线性比例，其中 T 是总轮次数，d 是特征数量，并实现了 O（T）的遗憾，其中 T 是回合数。

Jun, 2020

广义线性臂带问题中的随机探索

研究广义线性臂选择算法的两种随机算法：GLM-TSL 和 GLM-FPL，并提供了对它们的 $\tilde {O}(d\sqrt {n \log K})$ 遗憾度性能保证，这两种算法在逻辑回归和神经网络算法中表现出色并明显更快。

Jun, 2019

改进后的逻辑回归赌博机算法

本研究提出了一种针对逻辑回归赌博机的新方法，避免了先前算法中会导致较差实验结果的一种问题，并获得了较紧的后果界限，这种算法不依赖于制定决策时的尺寸。

Feb, 2020

对漂移进行对冲：在非稳态环境下学习优化

介绍针对非静态赌博机环境的最新数据驱动决策算法，采用了随机和对手式学习算法的非传统结合方法，通过滑动窗口 - 置信界算法，针对各种非静态赌博机问题实现了最优动态遗憾边界，并通过数字实验验证了算法的超越性能。

Mar, 2019