Feb, 2016

汤普森抽样在一般环境中是渐近最优的

TL;DR本研究提出了一种Thompson抽样的变种,用于非参数强化学习中的一类计数的随机环境中,实现了学习环境类的效果,同时假设为可恢复情况下遗憾率是亚线性的。