随机组合部分监督博弈中的相位探索与贪婪开采

Aug, 2016

随机组合部分监督博弈中的相位探索与贪婪开采

Phased Exploration with Greedy Exploitation in Stochastic Combinatorial Partial Monitoring Games

Sougata Chaudhuri, Ambuj Tewari

TL;DR讨论了组合型部分监测游戏的算法框架及其实现，提出了基于置信度界限和探索利用两种算法，同时还探讨了如何将本算法应用于实际感兴趣的问题：在线排名与反馈。

Abstract

Partial monitoring games are repeated games where the learner receives feedback that might be different from adversary's move or even the reward gained by the learner. Recently, a general model of combinatorial partial monitoring (CPM) games was proposed \cite{lincombinatorial2014}, where the learner's action space can be exponentially large and adversary sa

发现论文，激发创造

lil' UCB: 多臂赌博机的最优探索算法

在多臂老虎机游戏中，利用少量样本通过固定置信度水平下的置信区间，提出了一种最初的置信上界算法，该算法使用的样本数量与基于迭代对数定理的下限相比仅相差常数因子，同时使用了一种新的停止时间来避免在其他上置界型算法中观察到的臂联合的界限，从而进一步优化了算法，并通过模拟证明了算法的性能。

Dec, 2013

探索不再：非随机赌博机的改进高概率遗憾界限

本文提出了基于 Implicit eXploration 的损失估计策略，可以在不需要不必要的探索成分的情况下，实现高概率遗憾界，取得了多臂赌博问题方面的改进结果。

Jun, 2015

有限随机偏置监控中的遗憾下限和最优算法

研究了偏监督下的有限行为和随机结果的序列学习，提出了一种算法 PM-DMED，并证明其优于当前最先进算法并达到了渐近的最优遗憾上界。

Sep, 2015

结构化随机赌臂问题中的最小探索

介绍了一类广泛的随机赌博问题，其中将臂与相应的奖励映射的函数具有一些已知的结构特性。推导了这些问题的渐近特定情况下的遗憾下界，并且开发了OSSB算法，其遗憾匹配了这个基本极限。通过数值实验展示了OSSB的效率，并且证明OSSB优于包括汤普森取样在内的现有算法。

Nov, 2017

通过解游戏进行非渐近纯探索

本文提出了一种适用于纯探索问题和赌博机结构的不需完全解决优化问题的优化算法，并获得了对指数族的适应性和有限信心保证。

Jun, 2019

未知协同收益游戏中无悔学习

本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW，通过运行 MW 方法获得最佳效果，同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。

Sep, 2019

线性部分监督的信息引导采样

该论文提出信息导向抽样方法在带线性奖励结构的随机局部监控中实现了自适应的最坏情况遗憾率，并且针对所有有限博弈分类了最小最大遗憾，IDS 在所有情况下都实现了最优率。

Feb, 2020

全赌臂或部分线性反馈下的组合纯探索

提出了多项式时间适应性算法和多项式时间算法，以针对全带回馈和非线性奖励函数等多种情况进行组合纯探索问题的处理，对样本复杂度进行了分析。

Jun, 2020

贝叶斯优化中的随机探索：最优遗憾和计算效率

使用高斯过程模型进行贝叶斯优化，以及基于核的奖励优化方法的研究，其中采用从分布中抽取的随机样本进行域的探索。通过该随机探索方法，我们证明其可以实现最优的误差率，并且我们的方法在无噪声和有噪声环境下均具有理想的后悔保证，同时避免了昂贵的无凸优化问题，解决了一个COLT开放性问题。

Oct, 2023

基于混合正则化的优化探索: 针对偏向监控的对数遗憾与对抗鲁棒性

通过优化的探索，局部监控问题的新型逼近算法提供了在随机和对抗环境中近乎最佳的悔恨界限。

Feb, 2024