BriefGPT.xyz
Ask
alpha
关键词
value-based model-free rl agent
搜索结果 - 1
ICLR
进化式强化学习算法
通过在计算图的空间中搜索计算值为基础的无模型 RL 代理的损失函数来提出一种元学习强化学习算法的方法,该方法可以广义地适用于训练中未看到的新环境,并能够从头开始学习和提高行业表现。
PDF
3 years ago
Prev
Next