改进的贝叶斯后悔边界在强化学习中的应用

Oct, 2023

改进的贝叶斯后悔边界在强化学习中的应用

Improved Bayesian Regret Bounds for Thompson Sampling in Reinforcement Learning

Ahmadreza Moradipari, Mohammad Pedramfar, Modjtaba Shokrian Zini, Vaneet Aggarwal

TL;DR本研究证明了在多种环境设置下，Thompson 采样在强化学习中的贝叶斯后悔限与性能上界，通过使用一组离散的替代环境简化学习问题，并使用后验一致性对信息比例进行了精细分析，从而导出了时间不均匀强化学习问题中的上界，其中 $H$ 是回合长度，$d_{l_1}$ 是环境空间的 Kolmogorov $l_1$ 维度。接着，我们在各种设置中找到了 $d_{l_1}$ 的具体限制，并讨论了我们的结果是首次出现还是改进了现有技术。

Abstract

In this paper, we prove the first bayesian regret bounds for Thompson Sampling in reinforcement learning in a multitude of settings. We simplify the learning problem using a discrete set of →

bayesian regret bounds thompson sampling reinforcement learning surrogate environments information ratio

发现论文，激发创造

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法 Thompson Sampling 在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的 contestual bandits 设置。

Sep, 2012

线性汤普森抽样再探

在随机线性赌博机问题中，我们为 Thompson 采样的后悔证明提供了一种替代证明方法。我们展示了后悔与目标函数的敏感性有关，并且选取与乐观参数相关的最优臂可以控制后悔，在具有固定概率为乐观的采样分布下来看，Thompson 采样可以作为一种通用的随机化算法。我们还证明了这个理论可以轻松应用到正则化线性优化和广义线性模型问题中。

Nov, 2016

线性强化学习问题的信息论界限和紧凑遗憾率

该论文研究了贝叶斯后悔和汤普森抽样算法在赌博问题中的变体。它建立在信息论框架的基础上，通过率失真分析提供了关于线性赌博问题的后悔率上界。使用链接论证，我们针对度量动作空间的赌博问题建立了新的界限。在奖励的适当连续性假设下，我们的界限为 d 维线性赌博问题提供了紧凑的速率。

Mar, 2024

具有子高斯奖励的上下文强盗问题的 Thompson 抽样遗憾边界

本文基于 Neu 等人引进的抬升信息比率，研究 Thompson Sampling 算法在情境赌博问题中的性能，并证明了李环境参数和历史的互信息的综合界限，并提出适用于亚高斯奖励子集的抬升信息率新界限，推广了 Neu 等人的研究，最后为无结构有界情境赌徒、带有拉普拉斯似然函数的结构有界情境赌徒、有界线性情境赌徒和结构性伯努利赌徒提供了明确的后悔界限。

Apr, 2023

Thompson 抽样的无先验和有先验依赖的遗憾界

研究具有奖励分布先验分布的随机多臂赌博问题，证明 Thompson Sampling 算法在没有先验分布时具有最优的贝叶斯遗憾上界，并在 Bubeck 等人的先验设置下证明了算法的一致界限，并与 Audibert 和 Bubeck [2009] 和 Russo 和 Roy [2013] 的技术方法有关。

Apr, 2013

Thompson 采样在逻辑回归老虎机问题中的表现

本研究对 Logistic Bandit 问题进行了研究，确立了 Thompson sampling 算法的鲁棒性，提出了新的度量指标 —— 脆弱性维度，并使用该指标证明了现有算法的上限。

May, 2019

针对多种动作的汤普森取样的信息论分析

本论文提供了一种新的、基于编码的方法，用于证明 Russo 和 Van RoyBayesian 遗憾界制度对先验不确定性的依赖性，其通过熵以及由于动作数量的不断增加，熵可以变得无限大。通过引入率失真的概念，建立了新的界，从而通过信息理论的方法来推导线性选择组失策问题的几乎最优界，并提供了逻辑选择组失策问题的一个界，比以前提供的界显著改善。

May, 2018

一种可证明有效的无模型后验采样方法，用于情节强化学习

本文提出了一种新的模型无关后验采样的公式，适用于更广泛的周期性强化学习问题，并通过新颖的证明技术，展示了在适当条件下，我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配，尤其是在线性 MDP 设置中，我们的算法产生的遗憾与现有基于后验采样的探索算法相比，随着维度线性增长而非二次依赖。

Aug, 2022

强化学习的后验采样：最坏情况的遗憾界

提出了一种基于后验采样的算法，应用于具有有限但未知直径的 Markov 决策过程中，证明了近最优的最坏情况遗憾上界。这种方法通过证明 Dirichlet 分布的反集中性，可能具有独立研究价值，并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。

May, 2017

具有时间性的多臂赌博机问题中汤普森抽样的遗憾界

本文从学习的角度分析了未知参数情况下的时序不息不静赌博机问题，在采用泰普斯抽样的情况下考虑了一个通用策略映射作为竞争者，证明了贝叶斯遗憾的 k 倍增长上限。本文的竞争对手足够灵活，可以表示各种基准，包括最佳固定操作策略，最优策略，惠特尔指数策略或近视策略。同时，还提供了支持理论发现的实证结果。

May, 2019