Sep, 2019

平滑上下文强化学习:连接参数化和不可微性遗憾模式

TL;DR该研究讨论了非参数上下文赌博问题,研究了函数的Hölder类和光滑度参数β之间的插值关系,提出了一种新算法,能够调整到各种光滑度设置,并通过确立匹配的上下限证明其遗憾是速率最优的,从而弥合了现有文献关于参数和非可区分性情境赌徒问题,以及仅使用全局或本地信息的赌徒算法之间的差距,同时也揭示了上下文赌徒问题中的复杂性和遗憾之间关键性的相互影响。