具有图结构反馈的非随机多臂赌博机

Sep, 2014

具有图结构反馈的非随机多臂赌博机

Nonstochastic Multi-Armed Bandits with Graph-Structured Feedback

Noga Alon, Nicolò Cesa-Bianchi, Claudio Gentile, Shie Mannor, Yishay Mansour...

TL;DR本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Abstract

We present and study a partial-information model of online learning, where a decision maker repeatedly chooses from a finite set of actions, and observes some subset of the associated losses. This naturally model

partial-information online learning regret bounds combinatorial properties information feedback structure

发现论文，激发创造

带部分信息的在线学习小损失界

研究了拥有部分信息反馈的对抗 (非随机) 在线学习问题，在黑盒模型下能够获得如上小损失的概率，而其独特的设计使它在更多应用如半强盗问题和上下文强盗问题中得到有效的应用，并且能够提供一些之前无法获得的最优保证。

Nov, 2017

带有复合匿名反馈的非随机赌博机

研究非随机赌博环境下的遗憾界，提出了基于 FTRL with Tsallis entropy 的算法转化方法。

Dec, 2021

反馈图和转移成本下的赌博机

本研究探讨了对抗多臂赌博问题，其中有部分的观测可用，并且除了每个行动所造成的损失外，还会产生一种新的代价。我们提出了一种新的算法，其遗憾保证仅取决于图的支配数。我们进一步通过引入下界来增加该结果。最后，我们还提出了一种新的算法，当有部分反事实的反馈时，可以改善政策遗憾边界。

Jul, 2019

反馈图的在线学习：超越赌博机

研究在线学习问题中的反馈问题，证明反馈图的结构控制引起的学习难度，并给出了三个类别的反馈图的理论极限表现和影响。

Feb, 2015

带有赌博反馈的非随机控制

本文研究了控制具有对抗扰动的线性动态系统的问题，其中控制器仅有可用的标量损失反馈，且损失函数本身未知。针对这个问题，无论系统是否知道，我们都提出了一个有效的次线性后悔算法，并提出了一种用于带有记忆的损失函数的通用带贝叶斯优化算法，这可能是独立学科领域的一个难点。

Aug, 2020

离散选择多臂赌博机

通过建立离散选择模型与在线学习和多臂赌博算法领域之间的联系，本文的两个主要贡献是提供了一类算法的次线性遗憾界，包括 Exp3 算法作为特例，并引入了一类新的对抗多臂赌博算法，借鉴了 Wen (2001) 首次提出的广义嵌套逻辑模型，这些算法能够通过封闭形式的采样分布概率实现高度的模型调优灵活性。为了演示我们算法的实际实施，我们进行了数值实验，重点关注随机赌博的情况。

Oct, 2023

高效上下文强化学习与不完全信息反馈图

通过在线回归将参数图学习与无信息判定相结合，该研究开发了第一个可用于无信息设置的情境算法，并证明使用对数损失可以获得有利的后悔保证。

Feb, 2024

基于信息指导取样的带图反馈随机赌博机算法

本文旨在解决具有图反馈的随机多臂赌博问题，探讨了 Thompson 采样和基于信息学的采样策略等方案，提出了 Bayesian 遗憾的限制，并通过数值实验证明了新的决策策略的有效性。

Nov, 2017

从强盗到专家：浅谈旁观价值

本文探讨了一种对抗性在线学习情境，其中决策者可以在每个阶段选择一个行动，并观察到给定行动的奖励，同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法，这些算法依赖于非平凡的图论信息反馈结构特性。

Jun, 2011

因果选手：通过因果推断学习有效干预

该论文研究在随机环境下使用因果模型来改进在线学习中好的干预率的问题，提出了一种新的算法来利用因果反馈并证明其简单遗憾的边界比不使用额外因果信息的算法严格更好（在所有量上）。

Jun, 2016