Aug, 2016
随机组合部分监督博弈中的相位探索与贪婪开采
Phased Exploration with Greedy Exploitation in Stochastic Combinatorial
Partial Monitoring Games
TL;DR讨论了组合型部分监测游戏的算法框架及其实现,提出了基于置信度界限和探索利用两种算法,同时还探讨了如何将本算法应用于实际感兴趣的问题:在线排名与反馈。
Abstract
Partial monitoring games are repeated games where the learner receives feedback that might be different from adversary's move or even the reward gained by the learner. Recently, a general model of combinatorial partial monitoring (CPM) games was proposed \cite{lincombinatorial2014}, where the learner's action space can be exponentially large and adversary sa
发现论文,激发创造
lil' UCB: 多臂赌博机的最优探索算法
在多臂老虎机游戏中,利用少量样本通过固定置信度水平下的置信区间,提出了一种最初的置信上界算法,该算法使用的样本数量与基于迭代对数定理的下限相比仅相差常数因子,同时使用了一种新的停止时间来避免在其他上置界型算法中观察到的臂联合的界限,从而进一步优化了算法,并通过模拟证明了算法的性能。
Dec, 2013
探索不再:非随机赌博机的改进高概率遗憾界限
本文提出了基于 Implicit eXploration 的损失估计策略,可以在不需要不必要的探索成分的情况下,实现高概率遗憾界,取得了多臂赌博问题方面的改进结果。
Jun, 2015
结构化随机赌臂问题中的最小探索
介绍了一类广泛的随机赌博问题,其中将臂与相应的奖励映射的函数具有一些已知的结构特性。推导了这些问题的渐近特定情况下的遗憾下界,并且开发了OSSB算法,其遗憾匹配了这个基本极限。通过数值实验展示了OSSB的效率,并且证明OSSB优于包括汤普森取样在内的现有算法。
Nov, 2017
未知协同收益游戏中无悔学习
本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW,通过运行 MW 方法获得最佳效果,同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。
Sep, 2019
线性部分监督的信息引导采样
该论文提出信息导向抽样方法在带线性奖励结构的随机局部监控中实现了自适应的最坏情况遗憾率,并且针对所有有限博弈分类了最小最大遗憾,IDS 在所有情况下都实现了最优率。
Feb, 2020
贝叶斯优化中的随机探索:最优遗憾和计算效率
使用高斯过程模型进行贝叶斯优化,以及基于核的奖励优化方法的研究,其中采用从分布中抽取的随机样本进行域的探索。通过该随机探索方法,我们证明其可以实现最优的误差率,并且我们的方法在无噪声和有噪声环境下均具有理想的后悔保证,同时避免了昂贵的无凸优化问题,解决了一个COLT开放性问题。
Oct, 2023