BriefGPT.xyz
大模型
Ask
alpha
关键词
off-policy learning algorithm
搜索结果 - 1
ICML
平均奖励马尔科夫决策过程的学习和规划
本研究提出了一种基于平均报酬 MDPs 的学习和规划算法,其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法,以及第一个离线学习算法,其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而
→
PDF
4 years ago
Prev
Next