本文介绍了一种基于 options 框架下的 policy gradient theorems,提出了一种新的 option-critic 架构,能够同时学习 options 的内部策略和终止条件,展现了该框架在离散和连续环境中的灵活性和效率。
Sep, 2016
通过构建一个层次化的选项体系,我们扩展了 Bacon 等人 2017 年的研究成果,提出了一种新的深度选项体系架构,并在离散和连续环境中进行了实证研究。
Oct, 2018
本文提出了一种优化目标,通过鼓励智能体访问行为一致性较高的状态来学习安全选项,从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡,并借助策略梯度算法优化了受约束的目标函数。在实验中,该方法取得了较好的表现,降低了回报的方差,并在奖励结构具有内在变异性的环境中提升了性能。
Jul, 2018
提出了一个基于 Actor-Critic 算法的多智能体强化学习算法,解决了多智能体场景下的信息筛选问题,可应用于大多数多智能体学习问题。
本文扩展了分层 option-critic 策略梯度定理,旨在通过使用基于常微分方程的方法分析,优化代理的策略,最大限度地获得马尔可夫链的最终奖励,并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。
Nov, 2019
本文提供了一种通用的服务集开放框架,用于学习行为控制的初始集,利用定义在 Option 之上的利益函数,推导了一个基于梯度的利益函数学习算法,从而导致了一种新的利益 - 选项批评家体系结构,支持学习可解释且可重用的时间抽象。
Jan, 2020
该研究论文讨论了自主发现强化学习代理的行为抽象或选项的问题,提出了一种算法以选项的压缩性能作为终止条件,并利用经典选项框架学习选项转换模型作为终止条件的 “评论家”,通过这种方式得出的选项具有实际意义,对学习和规划都有用。
Feb, 2019
本文研究通过 Context-Specific Representation Abstraction for Deep Option Learning(CRADOL)框架学习因子化信念状态表示,以便于每个选项只学习状态空间的子集,从而减少策略空间搜索的规模,以提高分层强化学习(hierarchical reinforcement learning)中选项和行动的学习效率
Sep, 2021
研究了一种基于 MDPs 的新型选项框架,应用 Actor-Critic 算法学习内部选项策略,终止条件和选项的主策略,并在具有挑战性的机器人仿真任务中展示了 DAC 对于传输学习的优越性能。
Apr, 2019
本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展,可以显著提高使用长期选项训练游戏的稳定性和效率。
Dec, 2019