关键词general value functions
搜索结果 - 8
- 数据高效的通用值函数评估的自适应探索
GVFExplorer 通过使用方差估计和行为策略更新,实现了同时评估多个 GVFs 并减少环境交互的数据效率学习方法。
- 使用通用价值函数学习领域支持的库存管理策略
一个使用强化学习和通用值函数的库存管理方法,通过域支持的库存补货策略实现了平衡可用性和浪费等目标,并提供了对决策的领域支持洞察。
- ICML从像素中发现基于物体的广义值函数
本文提出了一种基于对象的方法,试图从对象中发现有意义的特征,将其转化为具有时间相关性的 “指导” 函数,并利用随后学习到的一般价值函数进行控制,并且通过定性分析表明,学习到的表示不仅可解释而且围绕着任务之间不变的对象,从而促进了快速适应。
- 使用元梯度下降进行预测特征发现的单经验流
本文介绍了使用 meta-gradient descent 过程来进行连续学习的方法,它可让计算机代理通过预测未来感觉来选择合适的决策,并独立地选择可以解决部分可观察性问题的预测,从而实现类似于专家指定 GVFs 的性能,并使代理程序能够以 - 强化学习中有用的辅助任务是什么:研究目标策略的影响
本研究研究探讨在强化学习中,作为表示学习的辅助任务(auxiliary tasks)的目标策略(target policy)对主任务(main task)学习的影响,实证结果表明,贪心策略的辅助任务往往有效,而在所有策略中,甚至包括均匀随机 - 走向新 RL 网络;目的性图的出现
利用 neoRL 框架的认知地图和一般值函数实现潜在学习来提取人工智能的目的行为,而自主性的欲望节点允许更深层的 neoRL 行为图。通过实验验证了四个旨在实现目的网络的原则,证明了受 neoRL 网络的自主欲望控制的代理能够实时学习并在欧 - 发现有用问题的辅助任务
这篇文章提出了一种基于元梯度的全局价值函数(GVFs)发现方法,从而让强化学习(RL)代理能够发现自身的问题并通过学习答案来获得未预期的有用知识和技能,在 Atari 2600 电子游戏中,这些辅助任务通过与主任务一起元学习的方式可以提高一 - 利用后继表示加速建构性预测框架的学习
本文研究使用后继表示法(SR)加速基于通用价值函数(GVF)的积极知识系统的学习,在网格世界中分析了该方法,并在机器人物理数据上证明了它的潜力。