当等待不是选项：学习决策代价的选项

Sep, 2017

当等待不是选项：学习决策代价的选项

When Waiting is not an Option : Learning Options with a Deliberation Cost

Jean Harb, Pierre-Luc Bacon, Martin Klissarov, Doina Precup

TL;DR本文利用有限理性框架和沉思代价的概念，提出了一种学习如何构造好的options的方法，同时推导出实现这一目标的基于梯度的算法，并在Arcade Learning Environment中取得了性能和可解释性方面的增强。

Abstract

Recent work has shown that temporally extended actions (options) can be learned fully end-to-end as opposed to being specified in advance. While the problem of "how" to learn →

发现论文，激发创造

Option-Critic 架构

本文介绍了一种基于options框架下的policy gradient theorems，提出了一种新的option-critic架构，能够同时学习options的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Sep, 2016

基于终止策略的学习选择

将行动选项的学习过程视为多步离线学习的一部分，提出了一种新算法Q(beta)，可以在任意结束条件下学习最优解，从而解决了行动选项长度对学习效率和解决方案质量的矛盾。

Nov, 2017

连续动作任务的端到端学习选项

使用选项框架及决策代价对连续任务中的动作进行学习，并利用邻近策略优化而不是基础策略梯度的方法在Mujoco领域取得了有前途的结果，进而引出了连续任务中何时使用特定选项的探讨。

Nov, 2017

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

终止判定器

该研究论文讨论了自主发现强化学习代理的行为抽象或选项的问题，提出了一种算法以选项的压缩性能作为终止条件，并利用经典选项框架学习选项转换模型作为终止条件的“评论家”，通过这种方式得出的选项具有实际意义，对学习和规划都有用。

Feb, 2019

深度选项学习中权重共享的作用

本篇论文提出了一种针对option-critic架构中参数独立性的扩展，可以显著提高使用长期选项训练游戏的稳定性和效率。

Dec, 2019

兴趣选项：基于兴趣函数的时间抽象

本文提供了一种通用的服务集开放框架，用于学习行为控制的初始集，利用定义在Option之上的利益函数，推导了一个基于梯度的利益函数学习算法，从而导致了一种新的利益-选项批评家体系结构，支持学习可解释且可重用的时间抽象。

Jan, 2020

注意力选项评论家

本文引入基于注意力机制的扩展方法到option-critic架构中，以实现带状态抽象的多样性options学习，有效解决了option-critic中出现的选项主导和频繁切换的问题，并在转移学习任务中展示出更高的效率，可解释性和重复利用性。

Jan, 2022

基于模型的强化学习中的尊重奖励的子任务

为了实现人工智能的宏伟目标，强化学习必须包括使用抽象的状态和时间模型进行规划。本文提出了一种新的子任务方法，该方法使用原始奖励加上基于选项停止时的状态特征的奖励作为子任务，以生成选项和选项模型，解决了以往学术研究忽略问题的情况。结果表明，这种子任务生成的选项和选项模型在规划中更有效，并且可以使用现有的学习算法进行在线和非策略学习。最后，本文还展示了如何使用通用价值函数统一算法，从而统一了学习价值、策略、选项和模型的方法。

Feb, 2022

强化学习中的抽象理论

本文介绍了强化学习中抽象的理论，提供了符合需求的抽象函数的要求，并介绍了一组新算法和分析，旨在最大程度地减少有效强化学习的复杂性。

Mar, 2022