非平稳环境下的组合半赌博算法

Feb, 2020

Combinatorial Semi-Bandit in the Non-Stationary Environment

Wei Chen, Liwei Wang, Haoyu Zhao, Kai Zheng

TL;DR该研究探讨了非静态组合半强盗问题，研究了在动态和切换的情况下，算法所能达到的最佳后悔上限以及需要提前了解的参数，并提供了无需先知参数的算法。

Abstract

In this paper, we investigate the non-stationary combinatorial semi-bandit problem, both in the switching case and in the →

non-stationary combinatorial semi-bandit regret bounds switching case dynamic case

发现论文，激发创造

非平稳对决多臂老虎机的最优高效动态遗憾算法

本文研究了 $K$- 武斗器下在非固态或时变偏好情况下动态遗憾最小化问题，设计了能够有效解决此问题的算法，证明了算法的最优性，并进行了大量模拟和与其他算法对比的实验。

Nov, 2021

非平稳环境下的 MNL-Bandit

本文研究在非稳态环境下的 MNL-Bandit 问题，提出一种算法，其最坏动态遗憾为 $\tilde {O}(\min \left\{ \sqrt {NTL}\;;\; N^{\frac {1}{3}}(\Delta_{\infty}^{K})^{\frac {1}{3}} T^{\frac {2}{3}} + \sqrt {NT}\right\} )$，并基于 2016 年 Agrawal 等人提出的周期算法，引入了新的技术和思想来解决非稳态问题中的挑战，特别是针对非稳态引入的偏差，得出了紧密的表征以及新的浓度界限。

Mar, 2023

非平稳环境下高效应对背景干扰的 Bandit 算法

本研究开发了多种高效的上下文推断算法，为非平稳环境提供了有效的解决方案，具有动态适应分布变化的能力，同时通过对各种标准回归进行分析，证明了在时间和空间成本上都能达到最优的效果。

Aug, 2017

非平稳线性赌臂问题的简单解法

本文研究了非平稳线性臂问题，提出了一种基于重启策略的算法以平衡利用和探索，并证明了该算法的动态遗憾值，同时还解决了现有算法中的严重技术缺陷问题。

Mar, 2021

平滑的非平稳赌博机

本文研究应用于在线决策中的两臂赌博机问题，其中臂的平均奖励是绝对阶数小于等于 β 的 Hölder 函数。我们展示了该问题平滑和非平滑情况的首个分离，提出了一种策略以 T^（3/5）遗憾为代价。同时，我们为任何整数 β≥1 证明了一个 T^（β+1）/2β+1 的下限，与 β=2 的上限相匹配。

Jan, 2023

具有切换成本的对抗组合赌博机

通过分析具有切换成本的对抗组合赌博问题，本论文推导了极小后悔的下界并设计了相应算法，同时考虑了赌博反馈和半赌博反馈两种情况。