线性强化学习问题的信息论界限和紧凑遗憾率

Mar, 2024

线性强化学习问题的信息论界限和紧凑遗憾率

Chained Information-Theoretic bounds and Tight Regret Rate for Linear Bandit Problems

Amaury Gouverneur, Borja Rodríguez-Gálvez, Tobias J. Oechtering, Mikael Skoglund

TL;DR该论文研究了贝叶斯后悔和汤普森抽样算法在赌博问题中的变体。它建立在信息论框架的基础上，通过率失真分析提供了关于线性赌博问题的后悔率上界。使用链接论证，我们针对度量动作空间的赌博问题建立了新的界限。在奖励的适当连续性假设下，我们的界限为 d 维线性赌博问题提供了紧凑的速率。

Abstract

This paper studies the bayesian regret of a variant of the Thompson-Sampling algorithm for bandit problems. It builds upon the information-theoretic framework of [Russo and Van Roy, 2015] and, more specifically,

bayesian regret thompson-sampling algorithm bandit problems metric action space linear bandit problems

发现论文，激发创造

针对多种动作的汤普森取样的信息论分析

本论文提供了一种新的、基于编码的方法，用于证明 Russo 和 Van RoyBayesian 遗憾界制度对先验不确定性的依赖性，其通过熵以及由于动作数量的不断增加，熵可以变得无限大。通过引入率失真的概念，建立了新的界，从而通过信息理论的方法来推导线性选择组失策问题的几乎最优界，并提供了逻辑选择组失策问题的一个界，比以前提供的界显著改善。

May, 2018

Thompson 采样在逻辑回归老虎机问题中的表现

本研究对 Logistic Bandit 问题进行了研究，确立了 Thompson sampling 算法的鲁棒性，提出了新的度量指标 —— 脆弱性维度，并使用该指标证明了现有算法的上限。

May, 2019

无限臂线性情境赌博机的紧束悔恨界

本文研究线性上下文赌博机，特别是具有更改的无穷动作集的情况下的情况。我们证明了一种悔恨上界，其与以前的下界相匹配。

May, 2019

线性汤普森抽样再探

在随机线性赌博机问题中，我们为 Thompson 采样的后悔证明提供了一种替代证明方法。我们展示了后悔与目标函数的敏感性有关，并且选取与乐观参数相关的最优臂可以控制后悔，在具有固定概率为乐观的采样分布下来看，Thompson 采样可以作为一种通用的随机化算法。我们还证明了这个理论可以轻松应用到正则化线性优化和广义线性模型问题中。

Nov, 2016

改进的贝叶斯后悔边界在强化学习中的应用

本研究证明了在多种环境设置下，Thompson 采样在强化学习中的贝叶斯后悔限与性能上界，通过使用一组离散的替代环境简化学习问题，并使用后验一致性对信息比例进行了精细分析，从而导出了时间不均匀强化学习问题中的上界，其中 $H$ 是回合长度，$d_{l_1}$ 是环境空间的 Kolmogorov $l_1$ 维度。接着，我们在各种设置中找到了 $d_{l_1}$ 的具体限制，并讨论了我们的结果是首次出现还是改进了现有技术。

Oct, 2023

非周期性不安定赌博机中的汤普森抽样

本文研究了在未知奖励分布下使用 Thompson 采样算法来解决不断变化的赌博机问题，证明了一种子线性的，O (sqrt (T) log T) 的遗憾上限，并将算法测试在了一个动态信道接入问题的模拟中，实证结果与理论上限一致。

Oct, 2019

具有子高斯奖励的上下文强盗问题的 Thompson 抽样遗憾边界

本文基于 Neu 等人引进的抬升信息比率，研究 Thompson Sampling 算法在情境赌博问题中的性能，并证明了李环境参数和历史的互信息的综合界限，并提出适用于亚高斯奖励子集的抬升信息率新界限，推广了 Neu 等人的研究，最后为无结构有界情境赌徒、带有拉普拉斯似然函数的结构有界情境赌徒、有界线性情境赌徒和结构性伯努利赌徒提供了明确的后悔界限。

Apr, 2023

基于信息论的噪声上下文随机赌博机的汤普森抽样算法的遗憾分析

我们研究了一种随机情境线性赌博机问题，代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略，可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策略。我们在贝叶斯框架下引入了一种基于高斯情境噪声的汤普森采样算法。采用信息论分析，对于神谕的行动策略，我们证明了该算法的贝叶斯遗憾。我们还将这个问题扩展到当代理人在接收到奖励之后，以一定延迟观察到真实情境的情景，并展示了延迟真实情境会导致更低的贝叶斯遗憾。最后，我们通过与基准算法进行实证研究，展示了所提出算法的性能。

Jan, 2024

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法 Thompson Sampling 在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的 contestual bandits 设置。

Sep, 2012

线性参数化赌博机

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008