Oct, 2023

稀疏强化学习的双重稳健方法

TL;DR我们提出了一种新的遗憾最小化算法,用于具有稀疏线性马尔可夫决策过程(SMDP)的情节性问题,其中状态转移分布是观察特征的线性函数。