Feb, 2010

具有监督学习保证的上下文强化学习算法

TL;DR本篇研究针对在线贝叶斯赌博场景下的学习问题,提出了两条新算法:Exp4.P 用于竞争N个专家,经过实证测试有效性;VE 用于竞争VC-dimension为d的无限策略集合,此两种算法均能降低遗憾值并为上下文赌博场景提供监督学习型保证,实现了对往期算法保证的优化。