连续动作任务的端到端学习选项

Nov, 2017

Learnings Options End-to-End for Continuous Action Tasks

Martin Klissarov, Pierre-Luc Bacon, Jean Harb, Doina Precup

TL;DR使用选项框架及决策代价对连续任务中的动作进行学习，并利用邻近策略优化而不是基础策略梯度的方法在 Mujoco 领域取得了有前途的结果，进而引出了连续任务中何时使用特定选项的探讨。

Abstract

We present new results on learning temporally extended actions for continuoustasks, using the options framework (Suttonet al.[1999b], Precup [2000]). In orderto achieve this goal we work with the option-critic ar

options framework option-critic architecture proximal policy optimization temporally extended actions deliberation cost

发现论文，激发创造

Option-Critic 架构

本文介绍了一种基于 options 框架下的 policy gradient theorems，提出了一种新的 option-critic 架构，能够同时学习 options 的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Sep, 2016

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

深度选项学习中权重共享的作用

本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展，可以显著提高使用长期选项训练游戏的稳定性和效率。

Dec, 2019

当等待不是选项：学习决策代价的选项

本文利用有限理性框架和沉思代价的概念，提出了一种学习如何构造好的 options 的方法，同时推导出实现这一目标的基于梯度的算法，并在 Arcade Learning Environment 中取得了性能和可解释性方面的增强。

Sep, 2017

基于终止策略的学习选择

将行动选项的学习过程视为多步离线学习的一部分，提出了一种新算法 Q (beta)，可以在任意结束条件下学习最优解，从而解决了行动选项长度对学习效率和解决方案质量的矛盾。

Nov, 2017

多任务选项学习与发现在随机路径规划中的应用

应用强化学习模式下，通过数据驱动方法生成抽象状态，计算有效的选项和高级实现路径，从而获得可执行和可解决性的强大保证。

Sep, 2022

Safe Option-Critic: 在 Option-Critic 架构中学习安全性

本文提出了一种优化目标，通过鼓励智能体访问行为一致性较高的状态来学习安全选项，从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡，并借助策略梯度算法优化了受约束的目标函数。在实验中，该方法取得了较好的表现，降低了回报的方差，并在奖励结构具有内在变异性的环境中提升了性能。

Jul, 2018

通过元学习子目标发现选项

使用元梯度法发现多任务强化学习环境中有用的选项的新方法，该方法使用一个管理器将发现的任务选项和基本操作结合在一起，并通过神经网络优化子目标的奖励和终止函数，实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项，并且帮助初学者的学习速度更快。

Feb, 2021

DAC: 双重演员 - 评论家体系结构用于学习选项

研究了一种基于 MDPs 的新型选项框架，应用 Actor-Critic 算法学习内部选项策略，终止条件和选项的主策略，并在具有挑战性的机器人仿真任务中展示了 DAC 对于传输学习的优越性能。

Apr, 2019

深度强化学习的连续控制

本论文将 Deep Q-Learning 算法应用于连续动作域，并提出了一种基于确定性策略梯度的演员 - 评论家模型无模型算法，可在连续动作空间中进行操作，成功解决了 20 多个模拟物理任务，并能与完全访问动态并了解其导数的规划算法相竞争，并证明该算法对许多任务能够进行端到端学习。

Sep, 2015