BriefGPT.xyz
大模型
Ask
alpha
关键词
model-free control
搜索结果 - 2
ICML
平均奖励马尔科夫决策过程的学习和规划
本研究提出了一种基于平均报酬 MDPs 的学习和规划算法,其中包括第一种无参考状态的普遍证明收敛的无模型控制算法、第一个证明收敛的无政策自由预测算法,以及第一个离线学习算法,其收敛于实际值函数而不是值函数增加一个偏移量。在使用时间差错错误而
→
PDF
4 years ago
分布式流数据处理的无模型深度强化学习控制
该论文提出了一种使用深度强化学习实现分布式流数据处理系统无模型控制的新方法,并通过实验验证其在处理元组的时间效率方面的有效性和实用性。
PDF
6 years ago
Prev
Next