部分可观察情境下的汤普森抽样
本文设计和分析了一种基于贝叶斯思想的 Thompson Sampling 算法泛化版本,用于解决带有线性收益函数的随机上下文多臂老虎机问题,同时提供了该算法的第一理论保证,得到了最佳遗憾保证。
Sep, 2012
本文提出一种名为广义 Thompson Sampling 的新算法,将其作为专家学习框架下的一种启发式算法,其包括 Thompson Sampling 作为其特殊情况,并派生了一般性遗憾界,将其应用到广泛的情境性算法中,量化 “先验” 分布对遗憾界的影响。
Oct, 2013
我们研究了一种随机情境线性赌博机问题,代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略,可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策略。我们在贝叶斯框架下引入了一种基于高斯情境噪声的汤普森采样算法。采用信息论分析,对于神谕的行动策略,我们证明了该算法的贝叶斯遗憾。我们还将这个问题扩展到当代理人在接收到奖励之后,以一定延迟观察到真实情境的情景,并展示了延迟真实情境会导致更低的贝叶斯遗憾。最后,我们通过与基准算法进行实证研究,展示了所提出算法的性能。
Jan, 2024
文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用 Thompson 抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。
Sep, 2022
本文提出一种名为 DR Thompson Sampling 的多臂上下文赌博算法,并利用缺失数据文献中使用的双重稳健估计器提供先验概率在最坏情况下的保证率和次均方误差,具体表现为对因变量和全部或几个自变量进行回归的误差。他们发现该方法在实践中的表现优于 LinTS。
Feb, 2021
本文提出了一种新的 Thompson sampling 算法来处理有多个竞争目标和辅助约束的情景下的多结果上下文强化学习问题,并使用贝叶斯优化提供了在实践中导航安全性和性能权衡的方法。
Nov, 2019
本文基于 Neu 等人引进的抬升信息比率,研究 Thompson Sampling 算法在情境赌博问题中的性能,并证明了李环境参数和历史的互信息的综合界限,并提出适用于亚高斯奖励子集的抬升信息率新界限,推广了 Neu 等人的研究,最后为无结构有界情境赌徒、带有拉普拉斯似然函数的结构有界情境赌徒、有界线性情境赌徒和结构性伯努利赌徒提供了明确的后悔界限。
Apr, 2023
该论文提出了基于多级 Thompson 抽样方案的算法,用于解决具有线性预期收益的上下文相关多臂赌博机及其聚类武器的问题。同时,理论和实证表明,利用特定的集群结构可以显著改善遗憾并降低计算成本。
Sep, 2021
本文提出了一种改进的 Thompson Sampling 策略,在 frequentist 问题的设置下,通过理论分析及感性解释说明了如何缓解 TS 策略中探索不够的缺陷,并提供了 Bayesian Regret Bounds for TS 和 frequentist regret bounds for Feel-Good TS 的理论证明。基于在线最小二乘回归估计,使用在线聚合技术可以直接获得频率分析中的在线最小二乘回归估计回归界限,得到了与最小值下限的匹配,同时,该分析可以推广到一类线性嵌入式上下文匹配问题。
Oct, 2021