BriefGPT.xyz
Ask
alpha
关键词
goal states
搜索结果 - 1
前向 - 后向强化学习
通过训练一个模型来从已知的目标状态开始进行逆向预测,将强化学习中的目标函数引入到代理中,从而加速训练过程,并在 Gridworld 和汉诺塔游戏中进行了实验验证。
PDF
6 years ago
Prev
Next