BriefGPT.xyz
Oct, 2023
稀疏强化学习的双重稳健方法
A Doubly Robust Approach to Sparse Reinforcement Learning
HTML
PDF
Wonyoung Kim, Garud Iyengar, Assaf Zeevi
TL;DR
我们提出了一种新的遗憾最小化算法,用于具有稀疏线性马尔可夫决策过程(SMDP)的情节性问题,其中状态转移分布是观察特征的线性函数。
Abstract
We propose a new
regret minimization algorithm
for
episodic sparse linear markov decision process
(
smdp
) where the state-transition distri
→