休息和不休息赌博机的在线学习

Feb, 2011

Online Learning of Rested and Restless Bandits

Cem Tekin, Mingyan Liu

TL;DR本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题，在每个时间步骤，用户可以玩 M 支手臂，其目标是决定每一步要播放哪些 K 支手臂，以在一系列试验中最大化其长期奖励，尤其与机会式频谱接入（OSA）的应用相关。

Abstract

In this paper we study the online learning problem involving rested and restless multiarmed bandits with multiple plays. The system consists of a single player/user and a set of K finite-state discrete-time

online learning multiarmed bandits markov chains opportunistic spectrum access long-term reward

发现论文，激发创造

机会主义频谱接入中的在线学习：一种不稳定赌博机方法

本文介绍了一种利用 Markov 链的再生周期计算基于样本均值的索引策略的算法，证明了在马尔可夫链状态转移概率有渐进周期性且保持足够的多样性的情况下，该算法在时间上一致地实现对数遗憾，并且证明了该遗憾阈值也是最优的。

Oct, 2010

不静态赌博机问题的近似算法

讨论了一种无法使用贪心指数算法求解的 Feedback MAB 问题，开发出了一种新颖并且通用的双重算法技术，可为不少于 1+epsilon 的解提供 2+epsilon 的近似值，这个技术同样适用于其他不特定的喧闹强盗问题和 POMDP。

Nov, 2007

多通道机会式接入：多次播放的不安定赌博模型

本文研究了随机控制问题在机会式频谱访问中的应用，提出了设计一种通道选择策略，以最大化预期折扣总报酬为目标，将问题与该类问题现有文献进行了讨论。

Oct, 2009

在不断变化的世界中学习：具有未知动态的不安定多臂赌博机

此篇研究考虑了一个名为不安定多臂赌博机问题的模型，提出了一种探索和利用并行局部的策略，使得在一定的系统参数有限制时，能够获得对数级次的回报，而在缺乏关于系统的任何信息时，能够获得接近对数水平的回报。同时，也将问题扩展到了多个分布式参与者共享资源的情况，并得出相应结果。结果对于各种动态系统和通信网络以及金融投资的自适应学习都有应用。

Nov, 2010

无眠多臂赌博中的零样本学习

提出了一种基于神经网络的预训练模型（PreFeRMAB），具备广泛的零样本能力，能够更加高效地在特定实例上进行微调，同时适用于离散或连续状态空间的多动作问题，解决了以往研究中在处理连续状态时需要重新训练等限制，拥有理论收敛保证和在多个具有挑战性、以真实世界为灵感的问题上的实证优势。

Oct, 2023

线性高斯动态系统产 Generated 生的不相容 Bandit 问题

我们研究了连续状态空间中的不安宁赌博机问题，采用线性高斯动态系统生成的动作向量和状态向量的内积作为奖励，通过一种方法对每个动作的奖励进行预测，该方法通过线性组合先前观察到的奖励来预测每个动作的未来奖励。我们展示了无论先前选择的动作序列如何，可以利用为任何先前选择的动作采样的奖励来预测另一个动作的未来奖励，即 $t-1$ 回合选择的动作 1 的奖励可以用于预测 $t$ 回合的动作 2 的奖励。为此，我们设计了一种修改的卡尔曼滤波器，并提供了在一组线性高斯动态系统上的数值评估。

May, 2024

Restless-UCB，在线不安定赌博机的高效低复杂度算法

提出了一种名为 Restless-UCB 的在线学习策略来解决在线探索期望最大化问题，在 Restless-UCB 中，利用前期的探索来做出更好地决策，证明了期望最大化问题在合理的标准下得到了可行的上界，相较于现有算法，使用一种新的对于状态转移进行利用的方法来消除在泊松极限中出现的指数因子，同时也能用于优化现有算法。

Nov, 2020

具有正外部性的网络无休止赌博问题

该论文介绍了一种新型多臂赌博机网络建模方法，以探索资源分配中直接与间接受益的影响，并提出一种 Whittle 指数启发式算法来实现收益最大化的优化性行为部署。经实证，该算法在各超参数和拓扑结构条件下均有明显优势。

Dec, 2022

可证明高效的对抗性不安静多臂赌博机强化学习：未知转换和赌博机反馈

通过使用一种创新的偏置对抗性奖励估计器和低复杂度指标策略，我们开发了一种新颖的强化学习算法来解决具有未知转换函数和敌对奖励的周期性不安定性多臂赌博机问题，以最大化总的敌对奖励，并确保在每个决策阶段满足瞬时激活约束条件，我们的算法在我们所考虑的具有挑战性的设置中保证了约根号 T 的遗憾界，这在我们的所知范围内是首次实现的。

May, 2024

具上下文的无休止多臂赌博机在需求响应决策中的应用

介绍了一种新的多臂赌博机框架 —— 上下文不安定赌博机（CRB），用于复杂的在线决策。该 CRB 框架结合了上下文赌博机和不安定赌博机的核心特征，可以模拟每个臂的内部状态转换以及外部全局环境上下文的影响。使用双重分解方法，我们开发了一个可扩展的指标策略算法来解决 CRB 问题，并对该算法的渐近最优性进行了理论分析。在臂模型未知的情况下，我们进一步提出了一种基于指标策略的基于模型的在线学习算法，同时学习臂模型和做出决策。此外，我们将所提出的 CRB 框架和指标策略算法专门应用于智能电网中的需求响应决策问题。数值模拟实验证明了我们所提出的 CRB 方法的性能和效率。

Mar, 2024