关键词sparse-reward environments
搜索结果 - 8
- ICML技能何时帮助强化学习?对时间抽象的理论分析
技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究,理论和实证结果表明,状态解决方案的压缩性较低的环境中强化学习的技能优势较小,技能对于探索比现有经验的 - 异质智能体中的自适应教学:在稀疏奖励场景中平衡惊喜
学习演示(LfD)是一种有效的训练系统的方法,使得 “学生” 代理能够通过从最有经验的 “教师” 代理的演示中学习,而不是并行训练他们的策略。我们提出了一种特别针对教师和学生代理之间异质性挑战的教师 - 学生学习框架,该框架基于 “惊喜” - 通过自动学习组合子任务实现高效样本强化学习
自动结构化奖励函数以提高样本利用率,并在稀疏奖励环境中显著优于现有技术基线。
- 使用从稀疏奖励演示中学到的平滑引导奖励的策略优化
通过使用离线演示算法,提出了一种名为 Policy Optimization with Smooth Guidance (POSG) 的简单高效的在线深度强化学习算法,该算法能够解决奖励反馈稀疏性的问题,并在稀疏奖励环境中实现可靠有效的长期 - 部分可观测情况下的屏蔽防护强化学习
研究了强化学习中的安全探索问题,提出了一种叫做 shield 的方法来确保代理人只进行安全的操作,并深度结合使用 state-of-the-art deep RL 来提高 RL 代理人的性能,实验证明这种方法可以提高收敛速度和最终表现,并可 - 辅助任务对表示动态的影响
本文研究了在稀疏奖励环境中,如何通过分析时间差分算法的动态来建立转移算符的谱分解和各种辅助任务诱导的表示之间的联系,并利用这些理论结果来选择深度强化学习代理的辅助任务。
- ICLR基于贝叶斯优化的子目标探索
本文提出了一种基于代价感知的贝叶斯优化方法,旨在通过动态子目标的一系列探索策略来克服稀疏奖励、高昂交互和噪声等挑战,实现在未知分布环境下的政策学习。在实验评估中,平均而言,所提出的算法在问题领域上的表现优于 MAML 元学习算法 19%,超 - ICLR回顾策略梯度
本文研究如何将 hindsight 引入到 policy gradient 方法中,对各种稀疏奖励机制进行实验并表明 hindsight 能显著提高样本效率。