本文介绍了一种基于 options 框架下的 policy gradient theorems,提出了一种新的 option-critic 架构,能够同时学习 options 的内部策略和终止条件,展现了该框架在离散和连续环境中的灵活性和效率。
Sep, 2016
通过构建一个层次化的选项体系,我们扩展了 Bacon 等人 2017 年的研究成果,提出了一种新的深度选项体系架构,并在离散和连续环境中进行了实证研究。
Oct, 2018
本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展,可以显著提高使用长期选项训练游戏的稳定性和效率。
Dec, 2019
研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题,并通过协同扰动优化算法及其他方法解决难以优化的问题。 最后,论文在交通信号控制应用中展示了算法的实用性。
Mar, 2014
本文研究了强化学习中平均回报和折扣回报的区别,提出了面向平均回报的策略梯度定理,同时开发了基于此理论的 Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) 算法。实验结果表明,ARO-DDPG 在 MuJoCo 环境中优于现有的基于平均回报的策略方法。
May, 2023
本文引入基于注意力机制的扩展方法到 option-critic 架构中,以实现带状态抽象的多样性 options 学习,有效解决了 option-critic 中出现的选项主导和频繁切换的问题,并在转移学习任务中展示出更高的效率,可解释性和重复利用性。
Jan, 2022
本研究针对均值回报的强化学习问题,提出了一种考虑策略改善和深度强化学习相结合的新算法 ATRPO,实验结果表明该算法在 MuJuCo 环境中不仅能够有效应对较为复杂的任务,而且在长期平均回报上的表现也优于传统算法 TRPO。
Jun, 2021
本文提出了一种优化目标,通过鼓励智能体访问行为一致性较高的状态来学习安全选项,从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡,并借助策略梯度算法优化了受约束的目标函数。在实验中,该方法取得了较好的表现,降低了回报的方差,并在奖励结构具有内在变异性的环境中提升了性能。
Jul, 2018
本文研究通过 Context-Specific Representation Abstraction for Deep Option Learning(CRADOL)框架学习因子化信念状态表示,以便于每个选项只学习状态空间的子集,从而减少策略空间搜索的规模,以提高分层强化学习(hierarchical reinforcement learning)中选项和行动的学习效率
Sep, 2021
本研究提出了一种新的 Actor-Critic 算法变体,使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差,不论策略评估技术的选择,我们都能提供 Actor-Critic 算法的收敛速度,特别是当值函数采用线性函数近似且为连续状态和动作空间时,这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。
Oct, 2019