BriefGPT.xyz
Ask
alpha
关键词
neural policy
搜索结果 - 2
使用演员 - 评论算法和 ReLU 网络合成程序策略
在这篇论文中,我们展示了使用 actor-critic 算法将从 actor-critic 算法学习到的策略转化为以程序形式编码的策略的连接,以此避免了需要使用特定于 PIRL 的算法的问题。实证结果表明,这种转化方法能够学习出简短而有效的
→
PDF
a year ago
ICLR
使用工作流引导探索的 Web 界面上的强化学习
使用演示进行探索约束的工作流引导探索算法提高了强化学习智能体在面向网络任务中的效率
PDF
6 years ago
Prev
Next