BriefGPT.xyz
Sep, 2012
基于线性回报的情境型贝叶斯-汤普森抽样算法
Thompson Sampling for Contextual Bandits with Linear Payoffs
HTML
PDF
Shipra Agrawal, Navin Goyal
TL;DR
本文设计和分析了一种基于贝叶斯思想的Thompson Sampling算法泛化版本,用于解决带有线性收益函数的随机上下文多臂老虎机问题,同时提供了该算法的第一理论保证,得到了最佳遗憾保证。
Abstract
thompson sampling
is one of the oldest heuristics for
multi-armed bandit
problems. It is a randomized algorithm based on
bayesian
ideas, a
→