本文介绍了一种基于 options 框架下的 policy gradient theorems,提出了一种新的 option-critic 架构,能够同时学习 options 的内部策略和终止条件,展现了该框架在离散和连续环境中的灵活性和效率。
Sep, 2016
通过构建一个层次化的选项体系,我们扩展了 Bacon 等人 2017 年的研究成果,提出了一种新的深度选项体系架构,并在离散和连续环境中进行了实证研究。
Oct, 2018
本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展,可以显著提高使用长期选项训练游戏的稳定性和效率。
Dec, 2019
本文利用有限理性框架和沉思代价的概念,提出了一种学习如何构造好的 options 的方法,同时推导出实现这一目标的基于梯度的算法,并在 Arcade Learning Environment 中取得了性能和可解释性方面的增强。
Sep, 2017
将行动选项的学习过程视为多步离线学习的一部分,提出了一种新算法 Q (beta),可以在任意结束条件下学习最优解,从而解决了行动选项长度对学习效率和解决方案质量的矛盾。
Nov, 2017
应用强化学习模式下,通过数据驱动方法生成抽象状态,计算有效的选项和高级实现路径,从而获得可执行和可解决性的强大保证。
Sep, 2022
本文提出了一种优化目标,通过鼓励智能体访问行为一致性较高的状态来学习安全选项,从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡,并借助策略梯度算法优化了受约束的目标函数。在实验中,该方法取得了较好的表现,降低了回报的方差,并在奖励结构具有内在变异性的环境中提升了性能。
Jul, 2018
使用元梯度法发现多任务强化学习环境中有用的选项的新方法,该方法使用一个管理器将发现的任务选项和基本操作结合在一起,并通过神经网络优化子目标的奖励和终止函数,实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项,并且帮助初学者的学习速度更快。
Feb, 2021
研究了一种基于 MDPs 的新型选项框架,应用 Actor-Critic 算法学习内部选项策略,终止条件和选项的主策略,并在具有挑战性的机器人仿真任务中展示了 DAC 对于传输学习的优越性能。
Apr, 2019
本论文将 Deep Q-Learning 算法应用于连续动作域,并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法,可在连续动作空间中进行操作,成功解决了 20 多个模拟物理任务,并能与完全访问动态并了解其导数的规划算法相竞争,并证明该算法对许多任务能够进行端到端学习。
Sep, 2015