BriefGPT.xyz
Ask
alpha
关键词
goal-oriented reinforcement learning
搜索结果 - 3
离线随机最短路径:学习、评估与优化
本文研究了离线情况下有限状态和动作空间下的目标导向强化学习,提出基于简单值迭代的算法来解决离线策略评估和学习任务,并分析了这些算法的强实例相关界限。
PDF
2 years ago
IJCAI
MapGo: 面向目标任务的模型辅助策略优化
本文提出了一种名为 FGI 的新的重标记策略用于改善回报稀疏性问题,并通过引入动态模型来生成模拟轨迹来提高采样效率,提出了一种名为 MapGo 框架用于目标导向任务的模型辅助策略优化, 并在复杂任务上的实验证明了 FGI 策略相比后见策略的
→
PDF
3 years ago
透过事后目标生成进行探索
本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation,该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径,以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操
→
PDF
5 years ago
Prev
Next