BriefGPT.xyz
Ask
alpha
关键词
bellman operators
搜索结果 - 2
适当价值等效性
本文研究模型为基础的强化学习中的价值等价原则及其在 MuZero 算法优化中的应用。
PDF
3 years ago
强化学习中任务规范的统一
介绍了一种 RL 任务形式化的方法,通过简单的构造实现了不同任务设置的统一,包括状态转移折扣的概括;并拓展了标准学习构造和部分理论结果,提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。
PDF
8 years ago
Prev
Next