Jan, 2020

无穷时间尺度下强化学习价值函数的统计推断

TL;DR本文提出了一种基于序列 / 筛选法的行动 - 值状态函数(Q 函数)来推导策略的置信区间以及递归更新估计策略及其价值估计器的 SequentiAl 值评估(SAVE)方法,以构建无限视野设置下策略价值的置信区间。在移动健康研究的数据集上进行了实验,结果表明强化学习算法有助于改善患者的健康状况。