May, 2023

具有预算信息限制的情境臂控制

TL;DR文章介绍了一种结合在线 Primal-dual 算法和上下文强化学习算法的优化和学习算法来解决数字健康领域中的个性化治疗问题,并证明该算法具有亚线性后悔界限。