带有侧观测的随机图赌博学习

Aug, 2023

Stochastic Graph Bandit Learning with Side-Observations

Xueping Gong, Jiheng Zhang

TL;DR提出一种算法来解决具有图反馈和一般函数空间的随机情境赌博问题，该算法适应底层图结构和奖励差距，为这种随机情境设定提供了一个依赖于差距的上界，改进了遗留问题，并通过数值实验验证了计算效率和 regret 上界的有效性，推动了具有图反馈的随机情境赌博领域的发展。

Abstract

In this paper, we investigate the stochastic contextual bandit with general function space and graph feedback. We propose an algorithm tha

stochastic contextual bandit graph feedback algorithm regret upper bounds practical applications

发现论文，激发创造

基于图形的情境随机赌博机

该研究提出了一种基于随机上下文赌博问题的在线图预测的广义方法，将顶点上的未知标签与奖励分布相结合，提出了基于线性图和树的算法，有效地解决了图标签预测中的实例困难问题，并提出了一种计算简单，易于分析的算法框架来处理更一般的图。

May, 2023

利用随机赌博机的侧观察优化

本文提出一种考虑了副观测数据的随机赌博机模型，并基于上界置信度 (UCBs) 提供了高效的算法，用于在社交网络中推荐内容，实现了比传统算法更好的效果。

Oct, 2012

具有图反馈的随机上下文臂机：从独立数到 MAS 数

我们研究了具有图反馈的背景下的情景赌博问题，发现了相关概念与学习限制的关系，并提供了优化算法，以及表明针对情景赌博问题的统计复杂性在许多情况下可以由最大无环子图数完全刻画。

Feb, 2024

从强盗到专家：浅谈旁观价值

本文探讨了一种对抗性在线学习情境，其中决策者可以在每个阶段选择一个行动，并观察到给定行动的奖励，同时还能获取有关选择其他行动所获得的奖励的信息。研究者们开发出具有可证明的后悔保证的实用算法，这些算法依赖于非平凡的图论信息反馈结构特性。

Jun, 2011

同时学习具有一般图反馈的随机与对抗赌博机

本文研究了在线学习中使用图形反馈的问题，提出了一种新的权衡机制，能够同时在随机环境和对抗环境取得最优结果，具有很好的推广性。

Jun, 2022

高效上下文强化学习与不完全信息反馈图

通过在线回归将参数图学习与无信息判定相结合，该研究开发了第一个可用于无信息设置的情境算法，并证明使用对数损失可以获得有利的后悔保证。

Feb, 2024

可证明的部分可观测上下文赌博机中的高效学习

我们研究了部分可观察环境下的上下文马尔可夫决策过程中的迁移学习问题，通过优化问题将其转化为识别或部分识别动作和奖励之间因果效应的问题，并通过线性规划的顺序求解来获得相容的因果模型，并在考虑估计误差的情况下获得因果边界。我们的采样算法提供了适宜的采样分布的收敛结果，然后展示了如何将因果边界应用于改进传统的贝叶斯增强算法，并对动作集大小和函数空间的影响进行了分析。与以往文献相比，我们的方法在函数逼近任务中可以处理一般的上下文分布，改善了对函数空间大小的依赖性。我们正式证明了我们的因果增强算法优于传统的贝叶斯增强算法，并实现了数量级更快的收敛速度。最后，我们进行了模拟实验，证明了我们的策略相对于当前最先进的方法的高效性，可以在数据稀缺且成本高昂的实际应用中提高上下文马尔可夫决策过程的性能。

Aug, 2023

不确定性下的奖励最大化：利用网络的相关观察

设计考虑了存在网络结构情况下对多臂赌博问题的解决方案，提出两个基于网络结构的策略，并在真实社交网络和路由网络的数据上测试，证明相比于现有策略获得了更多的好处。

Apr, 2017

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

带图反馈的随机赌博机的汤普森抽样

本研究介绍了一种新的 Thimpson Sampling 算法扩展，应用于带图反馈的随机顺序决策问题，甚至在图结构本身未知或者不断变化的情况下。通过对真实和模拟的具有图反馈的网络进行广泛的实验结果，可以说明该算法的性能优于使用上界置信度的相关方法，即使后者使用的图信息更多。

Jan, 2017