BriefGPT.xyz
Ask
alpha
关键词
finite state-action space
搜索结果 - 1
通过评估最优偏置函数实现强化学习的遗憾最小化
基于 “面对不确定性的乐观原则” 的算法,使用有限状态 - 动作空间的、用马尔可夫决策过程(MDP)建模的强化学习(RL)有效学习。通过评估最佳偏置函数 $h^{*}$ 的状态对差异,该算法在已知 $sp (h^{*})$ 的情况下实现 M
→
PDF
5 years ago
Prev
Next