通过奖励偏置探索：针对随机多臂赌博机的奖励偏置最大似然估计

ICMLJul, 2019

通过奖励偏置探索：针对随机多臂赌博机的奖励偏置最大似然估计

Exploration Through Reward Biasing: Reward-Biased Maximum Likelihood Estimation for Stochastic Multi-Armed Bandits

Xi Liu, Ping-Chun Hsieh, Anirban Bhattacharya, P. R. Kumar

TL;DRRBMLE 算法是一种针对随机多臂赌博机问题的学习算法，以奖励偏差最大似然估计法为基础，可以得到基于指数策略的解，同时它还能够适应性地估计未知参数，并在实验中表现优异。

Abstract

Inspired by the reward-biased maximum likelihood estimate method of adaptive control, we propose RBMLE -- a novel family of learning algorithms for stochastic multi-armed bandits (SMABs). For a broad range of SMA

reward-biased maximum likelihood estimate stochastic multi-armed bandits index policy bias-growth rate regret bound

发现论文，激发创造

强化学习中基于奖励偏置的最大似然估计

该研究提出了一种针对自适应控制的方法 - Reward-Biased Maximum Likelihood Estimate（RBMLE），旨在解决 Markov 链控制中的 “探索与开采问题” 和 “双控制问题”，同时在最优化参数时采用了一种新的乐观方法，该方法在各种情况下被证明是长期平均回报最优的，并在有限时间内具有与现有算法相当的抱怨。

Nov, 2020

基于价值偏差的最大似然估计在折扣线性 MDPs 中的模型驱动强化学习

我们提出使用基于反向传递最大似然估计的价值偏置方法来解决具有无限时间视角的线性马尔可夫决策过程，该方法在理论上证明具有几乎最优的遗憾，并且在计算上更高效，我们还发现线性马尔可夫决策过程和在线学习之间存在有趣的联系。

Oct, 2023

非贝叶斯不平静多臂赌博问题：近对数遗憾情形

该研究提出了一种适用于无贝叶斯假设的多臂老虎机问题求解方法，该方法可以在非贝叶斯假设且马尔可夫链参数未知时，通过元策略学习最优策略，并在未知动态信道的机会式频谱访问问题中取得了接近对数级的损失值，是该问题领域内的首个实现此类结果。

Nov, 2010

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010

非静态奖励多臂老虎机问题中的最优探索利用

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

多臂赌博机问题的探索和利用的确定性序列

提出了一种基于确定性探索和利用序列的 Multi-Armed Bandit (MAB) 问题求解方法，该方法能在轻尾分布下达到最优对数遗憾度，且在重尾分布下，若存在一阶到 p 阶矩，则达到 O (T^1/p) 的遗憾度，该方法在各种 MAB 变体问题中都有应用。

Jun, 2011

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

有限时段不静态多臂多动作赌博机的强化学习

本文研究的是带有多动作的有限时间不安定多臂赌博机问题，提出了一种可行的指数策略 Occupancy-Measured-Reward Index Policy 以及一种学习算法 R (MA)^2B-UCB，相比现有算法在遗憾和运算量等方面表现更佳。

Sep, 2021

量子厚尾赌博机

本文研究了具有重尾分布的奖励和量子奖励谷歌的多臂黑客（MAB）和随机线性黑客（SLB）。

Jan, 2023

具有马尔可夫回报的多臂赌博机问题的在线算法

考虑带 Markov 奖励的经典多臂赌博机问题，玩一只手臂时，其状态会按 Markov 方式更改，不玩时保持冻结。玩一只手臂时，玩家会获得与状态相关的奖励，每只手臂的状态转移概率未知。我们证明在手臂的状态转移概率满足一定条件下，基于样本均值的指数策略能够在总试验次数上实现对数遗憾，同时也证明了在具有休息的 Markov 赌博机模型下，样本均值指数策略不会降低最优性。此外，对比 Anantharam 的指数策略和 UCB，我们发现通过选择一个小的探索参数 UCB 可以比 Anantharam 的指数策略拥有更小的遗憾。

Jul, 2010