基于近似采样的强化学习更高效的随机探索

Jun, 2024

基于近似采样的强化学习更高效的随机探索

More Efficient Randomized Exploration for Reinforcement Learning via Approximate Sampling

Haque Ishfaq, Yixin Tan, Yu Yang, Qingfeng Lan, Jianfeng Lu...

TL;DR这篇论文提出了一个算法框架，结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法，在线性 MDPs 中应用时，我们的遗憾分析得到了关于维度的最好依赖关系，超过了现有的随机算法。在一些需要进行深度探索的任务中，我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57 套件的几个具有挑战性的游戏中，我们的算法在性能上要么优于，要么与深度 RL 文献中的其他强基准相当。

Abstract

thompson sampling (TS) is one of the most popular exploration techniques in reinforcement learning (RL). However, most TS algorithms with theoretical guarantees are difficult to implement and not generalizable to

thompson sampling approximate sampling reinforcement learning deep rl regret analysis

发现论文，激发创造

可证明且实用：通过 Langevin Monte Carlo 实现强化学习中的高效探索

本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略，通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数，该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布，在深度 RL 中易于部署，取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。

May, 2023

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

感性良好的汤普森取样在上下文臂和强化学习中的应用

本文提出了一种改进的 Thompson Sampling 策略，在 frequentist 问题的设置下，通过理论分析及感性解释说明了如何缓解 TS 策略中探索不够的缺陷，并提供了 Bayesian Regret Bounds for TS 和 frequentist regret bounds for Feel-Good TS 的理论证明。基于在线最小二乘回归估计，使用在线聚合技术可以直接获得频率分析中的在线最小二乘回归估计回归界限，得到了与最小值下限的匹配，同时，该分析可以推广到一类线性嵌入式上下文匹配问题。

Oct, 2021

ε- 贪婪汤普森采样用于贝叶斯优化

改良的 Thompson 抽样方法（TS）在贝叶斯优化（BO）中解决了利用 - 探索困境问题，在通过随机生成和最大化高斯过程（GP）后验样本路径来优先进行探索的同时，引入了 epsilon-greedy 策略来管理其利用，该策略随机在两种极端之间切换，从而平衡了两者的需求，并通过实验证明了该方法的有效性。

Mar, 2024

图神经汤普森采样

我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法，该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器，并证明在一定奖励函数边界的假设下，该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界，并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。

Jun, 2024

一种可证明有效的无模型后验采样方法，用于情节强化学习

本文提出了一种新的模型无关后验采样的公式，适用于更广泛的周期性强化学习问题，并通过新颖的证明技术，展示了在适当条件下，我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配，尤其是在线性 MDP 设置中，我们的算法产生的遗憾与现有基于后验采样的探索算法相比，随着维度线性增长而非二次依赖。

Aug, 2022

智能和适应后验采样算法用于二元选择

我们研究了基于 Thompson Sampling 的有界奖励随机赌博算法。为了解决现有的与高斯先验的 Thompson Sampling 相关的问题相关后悔界限在 T≤288e^64 时是虚无的问题，我们导出了一个更实用的界限，将主要项的系数从 288e^64 缩小到 1270。此外，我们提出了两种参数化的 Thompson Sampling 算法：带有模型聚合的 TS-MA-α 和带有时间战斗的 TS-TD-α，其中 α∈[0,1] 控制效用与计算之间的权衡。这两种算法都可以实现 O (Kln^(α+1)(T)/Δ) 的后悔界限，其中 K 是臂数量，T 是有限学习时段，Δ 表示拉动次优臂时的单轮性能损失。

May, 2024

使用分数后验信息的汤普森抽样泛化遗憾分析

Thompson sampling (TS) is a popular algorithm for solving multi-armed bandit problems; this paper introduces a variant called $\alpha$-TS with tempered likelihoods in the posterior distribution, and provides regret bounds for both instance-dependent and instance-independent scenarios.

Sep, 2023

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用 Thompson 抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法 Thompson Sampling 在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的 contestual bandits 设置。

Sep, 2012