关键词generalized policy improvement
搜索结果 - 7
- 结合行为和继承特征键盘
使用最新提出的 “Option Keyboard”(OK) 方法,本研究提出了 “Successor Features Keyboard”(SFK) 和 “Categorical Successor Feature Approximator - ICLR模块化后继特征逼近器的任务知识组合
本文提出了一种新的神经网络结构 MSFA,这种结构通过模块化的方式发现了对预测有用的状态特征并学习了它们自己的预测表示形式,相比于传统的基准架构和模块化架构,MSFA 能够更好地泛化。
- 通过广义策略改进优先级实现高样本效率的多目标学习
介绍了一种新的多目标强化学习算法,使用广义策略提升来定义优先级,实现了积极的学习策略,在学习中获得更高效的样本,通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率,并证明了算法始终收敛于一个有限步 - 具有理论支持的样本重用的广义政策改进算法
该研究提出了一类广义政策提升算法,将在线算法和离线算法相结合,在保证策略改进的同时,实现了高效数据复用,为深度强化学习的实际应用提供了可行性。
- ICML使用几何策略组合的广义策略改进
本文介绍了一种基于几何地平线模型来提高政策表现的方法,该方法可以有效的评估非马尔科夫策略并通过广义策略提升来优化出新的马尔可夫策略,此方法证明了在深度强化学习中取得了不错的效果。同时,文章提供了对 GHM 训练方法的分析和收敛性研究。
- ICML使用后继特征和泛化策略改进的深度强化学习转移
本文通过扩展 successor features (SFs) 和 generalised policy improvement (GPI) 框架的基本假设,实现从一组任务到另一组任务的优雅而健壮的技能迁移方法,并在一个复杂的三维环境下进行 - NIPS强化学习中的后继特征迁移
我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架,用于处理奖励函数在不同任务之间变化的情况,并且可以在不同任务之间自由地交换信息,同时具有转移策略的性能保