BriefGPT.xyz
Ask
alpha
关键词
contextual decision processes
搜索结果 - 1
具有低 Bellman 秩的情境决策过程可以被 PAC 学习
本文探讨了如何使用富观测和函数逼近进行强化学习的系统性探索,并介绍了一种新的模型,即上下文决策过程,它统一和概括了大多数之前的设置,并提出了一种新的强化学习算法,我们的算法用 Bellman rank 衡量复杂度,使用乐观探索最小化 Bel
→
PDF
8 years ago
Prev
Next