BriefGPT.xyz
大模型
Ask
alpha
关键词
antmaze domain
搜索结果 - 1
预测者:从像素到时间抽象的树搜索规划
Forecaster 是一种深度分层强化学习方法,通过对抽象层次的状态转换动态建模和训练世界模型,在高维状态空间(如像素)等复杂环境中规划高层次目标,并通过树搜索规划程序选择最优高层次目标,从而捕捉建立具有较长时间跨度的世界模型和在下游任务
→
PDF
9 months ago
Prev
Next