BriefGPT.xyz
Ask
alpha
关键词
kl-regularized expected reward objective
搜索结果 - 1
基于层次结构的 KL 正则化强化学习中的学习和迁移
本文提出一种基于 KL 正则化预期奖励目标的强化学习代理方法,它可以利用先验知识并在解决方案空间中利用可重复使用的结构,同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明,这种代理方法可以应用于不
→
PDF
5 years ago
Prev
Next