基于信息指导取样的带图反馈随机赌博机算法

AAAINov, 2017

基于信息指导取样的带图反馈随机赌博机算法

Information Directed Sampling for Stochastic Bandits with Graph Feedback

Fang Liu, Swapna Buccapatnam, Ness Shroff

TL;DR本文旨在解决具有图反馈的随机多臂赌博问题，探讨了 Thompson 采样和基于信息学的采样策略等方案，提出了 Bayesian 遗憾的限制，并通过数值实验证明了新的决策策略的有效性。

Abstract

We consider stochastic multi-armed bandit problems with graph feedback, where the decision maker is allowed to observe the neighboring actions of the chosen action. We allow the graph structure to vary with time

stochastic multi-armed bandit problems graph feedback thompson sampling information directed sampling bayesian regret bound

发现论文，激发创造

稀疏线性赌博机的信息引导采样

本文提出了一种基于信息定向抽样 (IDS) 的信息论贝叶斯遗憾界，在计算上能够高效地实现稀疏 IDS，通过数值实验表明相对于几个基线算法，稀疏 IDS 有明显的遗憾减少。

May, 2021

带图反馈的随机赌博机的汤普森抽样

本研究介绍了一种新的 Thimpson Sampling 算法扩展，应用于带图反馈的随机顺序决策问题，甚至在图结构本身未知或者不断变化的情况下。通过对真实和模拟的具有图反馈的网络进行广泛的实验结果，可以说明该算法的性能优于使用上界置信度的相关方法，即使后者使用的图信息更多。

Jan, 2017

无图形图形赌博机 Thompson 抽样的分析

本篇论文研究了带有图反馈的多臂赌博问题，其中可以观察所选行动的相邻行动，在图可能随时间变化且不向决策者完全显露的情况下。该文提出了一种算法，并证明了在无向图情况下它达到了最优（在对数因子内）失误收敛速率。同时，论文还提出了在有向图情况下该算法略微较弱的失误收敛速率，并提出了一种改进算法，在有向情况下，达到了最优失误收敛速率（对数因子内）。这两种算法都能有效实现，且不需要在任何时候了解反馈图。

May, 2018

信息导向抽样和异方差噪声赌场算法

本研究通过引入异方差噪声，重新考虑了随机赌博机问题，并提出了一种基于高斯处理模型的叫做 IDS 的新方法，该方法可以减小后悔和信息误差之间的比率，以优化贝叶斯优化算法。

Jan, 2018

渐进最优信息导向采样

介绍了一种基于信息导向采样（IDS）框架的简单高效的针对动作数有限的随机线性赌博机问题的算法，在有限时间内渐近最优，并且几乎是最坏情况下的最优。研究发现 IDS 如何在遗憾和信息之间平衡权衡，并揭示了最近被提出的原始对偶方法和 IDS 算法之间的惊人联系。通过实验表明，IDS 在有限时间内与 UCB 竞争力强，在渐近阶段更优。

Nov, 2020

信息引导采样的优化学习

该研究提出了一种新的信息导向采样的方法，它适用于在线优化问题，通过学习部分反馈，决策者需要在探索和利用之间取得平衡。

Mar, 2014

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

乐观信息导向抽样

我们提出了一种新的分析框架，将俄罗斯和范・罗伊（2018 年）的信息导向抽样的贝叶斯理论与 Foster 等人（2021 年）的最坏情况理论基于决策估计系数相结合，通过我们的算法模板 Optimistic Information-Directed Sampling，可以实现与经典贝叶斯 IDS 方法类似的实例相关遗憾保证，但不需要任何贝叶斯假设。我们分析的关键技术创新是引入一种乐观的替代模型来衡量遗憾，并使用它来定义俄罗斯和范・罗伊（2018 年）的信息比率和 Foster 等人（2021 年）的决策估计系数的较少保守版本。

Feb, 2024

深度强化学习的信息导向探索

本文提出了一种基于信息导向采样的探索策略，结合分布式强化学习的方法，应对异方差性观测噪声与参数不确定性的挑战，并在 Atari 游戏中展示出比传统策略显著的改进。

Dec, 2018

线性部分监督的信息引导采样

该论文提出信息导向抽样方法在带线性奖励结构的随机局部监控中实现了自适应的最坏情况遗憾率，并且针对所有有限博弈分类了最小最大遗憾，IDS 在所有情况下都实现了最优率。

Feb, 2020