多任务赌博机中的稳健转移的汤普森取样
本文设计和分析了一种基于贝叶斯思想的Thompson Sampling算法泛化版本,用于解决带有线性收益函数的随机上下文多臂老虎机问题,同时提供了该算法的第一理论保证,得到了最佳遗憾保证。
Sep, 2012
本文采用一种简单的后验抽样算法来平衡探索和利用学习优化操作,称为 Thompson Sampling,理论上提出了后验抽样与 UCB 算法的联系,并提供了一个广泛适用且可以专门针对许多模型类进行特化的后验抽样贝叶斯遗憾界。
Jan, 2013
本文提出一种名为广义 Thompson Sampling 的新算法,将其作为专家学习框架下的一种启发式算法,其包括 Thompson Sampling 作为其特殊情况,并派生了一般性遗憾界,将其应用到广泛的情境性算法中,量化“先验”分布对遗憾界的影响。
Oct, 2013
考虑了具有复杂操作的随机多臂赌博问题,其中决策者在每轮中进行复杂操作而不仅仅是基本臂。复杂操作的奖励是基本臂奖励的某些函数,并且观察到的反馈可能不是每个臂的奖励。作者在一般情况下证明了一种频率后悔上限和 Thompson 抽样算法的 相容性,并应用于包括选择臂子集的一类复杂赌博问题中。
Nov, 2013
本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用Beta先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析,进而找到了这两种分布情况下的算法解决方案,从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。
Jun, 2020
本文提出了一种改进的 Thompson Sampling 策略,在 frequentist 问题的设置下,通过理论分析及感性解释说明了如何缓解 TS 策略中探索不够的缺陷,并提供了 Bayesian Regret Bounds for TS 和 frequentist regret bounds for Feel-Good TS 的理论证明。基于在线最小二乘回归估计,使用在线聚合技术可以直接获得频率分析中的在线最小二乘回归估计回归界限,得到了与最小值下限的匹配,同时,该分析可以推广到一类线性嵌入式上下文匹配问题。
Oct, 2021
文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用Thompson抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。
Sep, 2022
我们研究了基于Thompson Sampling的有界奖励随机赌博算法。为了解决现有的与高斯先验的Thompson Sampling相关的问题相关后悔界限在T≤288e^64时是虚无的问题,我们导出了一个更实用的界限,将主要项的系数从288e^64缩小到1270。此外,我们提出了两种参数化的Thompson Sampling算法:带有模型聚合的TS-MA-α和带有时间战斗的TS-TD-α,其中α∈[0,1]控制效用与计算之间的权衡。这两种算法都可以实现O(Kln^(α+1)(T)/Δ)的后悔界限,其中K是臂数量,T是有限学习时段,Δ表示拉动次优臂时的单轮性能损失。
May, 2024
本文解决了序列多任务问题,关注具有相邻相似性的随机多臂老虎机。提出的两种基于UCB的算法通过转移前序任务的奖励样本来减少总体遗憾,实验结果表明在没有样本转移的情况下,转移样本可以显著提升性能。
Sep, 2024