BriefGPT.xyz
大模型
Ask
alpha
关键词
latent landmarks
搜索结果 - 1
将世界模型视为图:学习用于规划的潜在地标
该论文提出 L3P 算法,使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数,其在高维连续控制任务上具有优越的性能,是深度强化学习中可扩展规划的重要进展。
PDF
4 years ago
Prev
Next