关键词mdp
搜索结果 - 48
- ICML强化学习中发现和消除外生状态变量和奖励PDF6 years ago
- 结构化强化学习的探索PDF6 years ago
- 马尔可夫决策过程之外的极限状态聚合PDF10 years ago
- 强化学习中的状态表示选择PDF11 years ago
- 基于 MDP 的推荐系统PDF12 years ago
- 序贯决策环境中的动态教学PDF12 years ago
- 使用线性回归探索紧凑的强化学习表示PDF12 years ago
- 基于方差的奖励函数用于近似贝叶斯强化学习PDF12 years ago
Next