学习抽象选项
本文介绍了一种基于 options 框架下的 policy gradient theorems,提出了一种新的 option-critic 架构,能够同时学习 options 的内部策略和终止条件,展现了该框架在离散和连续环境中的灵活性和效率。
Sep, 2016
使用选项框架及决策代价对连续任务中的动作进行学习,并利用邻近策略优化而不是基础策略梯度的方法在 Mujoco 领域取得了有前途的结果,进而引出了连续任务中何时使用特定选项的探讨。
Nov, 2017
目前的论文旨在探索强化学习领域,并在现有方法的基础上构建改进方法,以解决高维度和复杂环境中的学习问题。它通过分层的方式(称为层次强化学习)来分解学习任务,通过构建自主地学习层级结构的代理来提高效果。
Mar, 2024
使用元梯度法发现多任务强化学习环境中有用的选项的新方法,该方法使用一个管理器将发现的任务选项和基本操作结合在一起,并通过神经网络优化子目标的奖励和终止函数,实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项,并且帮助初学者的学习速度更快。
Feb, 2021
在 Hierarchical Reinforcement Learning 的框架下,本研究通过使用不同的时间抽象层次交替使用相关算法,提出了一种用于解决有限时间间隔问题的元算法,从而初步理解了高层和低层策略同时学习的实际场景。
Jun, 2024
本文提出了一种优化目标,通过鼓励智能体访问行为一致性较高的状态来学习安全选项,从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡,并借助策略梯度算法优化了受约束的目标函数。在实验中,该方法取得了较好的表现,降低了回报的方差,并在奖励结构具有内在变异性的环境中提升了性能。
Jul, 2018
本文扩展了分层 option-critic 策略梯度定理,旨在通过使用基于常微分方程的方法分析,优化代理的策略,最大限度地获得马尔可夫链的最终奖励,并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。
Nov, 2019
本文引入基于注意力机制的扩展方法到 option-critic 架构中,以实现带状态抽象的多样性 options 学习,有效解决了 option-critic 中出现的选项主导和频繁切换的问题,并在转移学习任务中展示出更高的效率,可解释性和重复利用性。
Jan, 2022
研究介绍了一种数据高效的选项学习算法 - 后见之明离线选项(HO2),并证明其在现有基准测试中表现优异,结果强调了时间和操作抽象的重要性以及离线培训和信任区域约束,特别是在来自原始像素输入的具有挑战性的模拟 3D 机器人操作任务中。
Jul, 2020