Oct, 2021
感性良好的汤普森取样在上下文臂和强化学习中的应用
Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement
Learning
TL;DR本文提出了一种改进的 Thompson Sampling 策略,在 frequentist 问题的设置下,通过理论分析及感性解释说明了如何缓解 TS 策略中探索不够的缺陷,并提供了 Bayesian Regret Bounds for TS 和 frequentist regret bounds for Feel-Good TS 的理论证明。基于在线最小二乘回归估计,使用在线聚合技术可以直接获得频率分析中的在线最小二乘回归估计回归界限,得到了与最小值下限的匹配,同时,该分析可以推广到一类线性嵌入式上下文匹配问题。