BriefGPT.xyz
Ask
alpha
关键词
sampled action subsets
搜索结果 - 1
复杂动作空间中的学习与规划
本文提出了一个基于策略迭代的通用框架,可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中,样本化 MuZero 是 MuZero 算法的一个扩展,可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用
→
PDF
3 years ago
Prev
Next