广义线性背景下双重双重稳健汤普森抽样

AAAISep, 2022

广义线性背景下双重双重稳健汤普森抽样

Double Doubly Robust Thompson Sampling for Generalized Linear Contextual Bandits

Wonyoung Kim, Kyungbok Lee, Myunghee Cho Paik

TL;DR提出了一种新颖的上下文强化学习算法，使用 double doubly-robust estimator 实现对所有上下文的独立性考虑，并在概率保证条件下证明了广义线性模型赌博机的后悔上限。

Abstract

We propose a novel contextual bandit algorithm for generalized linear rewards with an $\tilde{O}(\sqrt{\kappa^{-1} \phi T})$ regret over $T$ rounds where $\phi$ is the minimum eigenvalue of the covariance of cont

contextual bandit algorithm generalized linear rewards double doubly-robust estimator regret bounds probabilistic margin condition

发现论文，激发创造

线性回报的双重稳健的汤普森抽样

本文提出一种名为 DR Thompson Sampling 的多臂上下文赌博算法，并利用缺失数据文献中使用的双重稳健估计器提供先验概率在最坏情况下的保证率和次均方误差，具体表现为对因变量和全部或几个自变量进行回归的误差。他们发现该方法在实践中的表现优于 LinTS。

Feb, 2021

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

双重稳健套索赌博机

提出了一种新的算法：Doubly-Robust Lasso Bandit algorithm，它利用线性回归参数的稀疏结构，融合在缺失数据文献中使用的双重稳健技术，解决了高维稀疏环境下多臂赌博机算法的问题，大大减少了调参数量和算法复杂度。

Jul, 2019

针对随机情境对决赌徒的方差感知后悔界限

本研究提出了一种基于广义线性模型的上下文对决算法，该算法在计算效率和方差感知遗憾边界方面有优势，并通过实验验证了其优于以往无方差算法的优点。

Oct, 2023

对抗性线性情境赌博机的一阶和二阶边界

考虑对抗性线性上下文赌博机设置，文中给出了一种新的算法，通过利用与不需要上下文设置的线性赌博机的新联系，利用连续指数权重算法在概率单形上的一个截断版本来获得结果，并证明了其结果优于最坏情况下的后悔，特别的当环境相对温和时，考虑了上下文的密度是对数凹的情况，给出了一种同时优于二阶和一阶损失的方法。

May, 2023

关于局部隐私线性情境赌博机的最佳后悔

通过分析均值绝对偏差误差和分层主成分回归，我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。

Apr, 2024

线性上下文强化学习的最佳算法

我们研究了针对 K 臂线性情境赌博机的最佳算法，无需先前对环境有所了解，在敌对和随机的情境下都能够提供接近最优的后悔边界。

Dec, 2023

一种新的非平稳情境赌博算法：高效、最优和免参数

提出了首个无需参数的、高效的、动态遗憾最优的上下文赌博算法，通过引入回放阶段来保持对非平稳的探索，并在探索和开发之间保持良好的平衡。

Feb, 2019

绕过模拟器：近似最优的对抗线性情境赌博机

通过实现无需模拟器的多项式时间算法，我们在拥有线性上界误差的情况下，提高了对抗性线性上下文赌博问题的表现，实现了近乎优化的后悔度，同时保持了计算效率。

Sep, 2023

广义线性赌臂问题的高效算法：在线随机梯度下降和汤普森抽样

本研究提出了一种基于在线随机梯度下降的广义线性赌博机算法，它使用单步 SGD 更新来利用过去的信息并使用汤普森抽样实现探索，能够在探索与利用之间取得平衡，在合成和实际数据集上始终优于现有算法，其总时间复杂度为 T 和 d 的线性比例，其中 T 是总轮次数，d 是特征数量，并实现了 O（T）的遗憾，其中 T 是回合数。

Jun, 2020