BriefGPT.xyz
Ask
alpha
关键词
linearly realizable
搜索结果 - 1
基于特征 - 占据梯度上升的离线强化学习
我们研究了大规模无穷时间折扣马尔可夫决策过程中离线强化学习的问题,当奖励和转移模型在已知特征映射下可线性实现。我们提出了一种新的算法,通过在特征占据空间中进行一种梯度上升的形式来解决这个问题。我们证明了该算法在文献中已知的最不严格的数据覆盖
→
PDF
2 months ago
Prev
Next