May, 2019

带有凸代价函数的结构化 MDP 学习:改进的库存管理遗憾界限

TL;DR设计了一种学习算法来解决一个基本库存管理中未知需求分布的问题,使用基本库存策略的下限和凸性等属性来建立与随机凸臂优化的联系,极大地提高了此问题的已知后悔上限。