深度强化学习的分类选项

IJCAIApr, 2016

Classifying Options for Deep Reinforcement Learning

Kai Arulkumaran, Nat Dilokthanakul, Murray Shanahan, Anil Anthony Bharath

TL;DR本文将一个分层强化学习方法 —— 选项框架与深度 Q 网络结合起来，通过在策略网络上使用不同的 “选项头” 以及用于选择不同选项的监督网络，探究子任务在正 / 负转移方面对架构约束的影响，并通过实证方法证明，增强型深度 Q 网络同时学习具有负转移的子任务的样本复杂性较低，而在学习具有正转移的子任务时不会降低性能。

Abstract

In this paper we combine one method for hierarchical reinforcement learning - the options framework - with deep q-networks (DQNs) through

hierarchical reinforcement learning options framework deep q-networks subtasks sample complexity

发现论文，激发创造

使用深度 Q-Learning 和变分自编码器进行可解释选项发现

Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法，通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。

Oct, 2022

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

多层深度选项的发现

本文提出了一种名为 DDO 的政策梯度算法，用于从一组演示轨迹中发现参数化选项，可递归地用于发现层次结构的附加级别，解决了手动设计选项在高维抽象状态空间中难以实现的问题，提高了深度 Q 网络代理学习的效率。DDO 可加速学习 4/5 个 Atari RAM 环境，并在机器人辅助手术视频和动态学方面具有发现结构的能力。

Mar, 2017

选项的强化学习

目前的论文旨在探索强化学习领域，并在现有方法的基础上构建改进方法，以解决高维度和复杂环境中的学习问题。它通过分层的方式（称为层次强化学习）来分解学习任务，通过构建自主地学习层级结构的代理来提高效果。

Mar, 2024

用预算强化学习实现选项发现

本研究关注 Reinforcement Learning 中学习层次策略的问题，提出了一种新的学习模型 Budgeted Option Neural Network（BONN）来自动发现决策过程中的选项，并在不同的经典 RL 问题上取得了有趣的定量和定性结果。

Nov, 2016

通过元学习子目标发现选项

使用元梯度法发现多任务强化学习环境中有用的选项的新方法，该方法使用一个管理器将发现的任务选项和基本操作结合在一起，并通过神经网络优化子目标的奖励和终止函数，实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项，并且帮助初学者的学习速度更快。

Feb, 2021

基于模型的强化学习中的尊重奖励的子任务

为了实现人工智能的宏伟目标，强化学习必须包括使用抽象的状态和时间模型进行规划。本文提出了一种新的子任务方法，该方法使用原始奖励加上基于选项停止时的状态特征的奖励作为子任务，以生成选项和选项模型，解决了以往学术研究忽略问题的情况。结果表明，这种子任务生成的选项和选项模型在规划中更有效，并且可以使用现有的学习算法进行在线和非策略学习。最后，本文还展示了如何使用通用价值函数统一算法，从而统一了学习价值、策略、选项和模型的方法。

Feb, 2022

深度选项学习中权重共享的作用

本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展，可以显著提高使用长期选项训练游戏的稳定性和效率。

Dec, 2019

OptionGAN: 使用生成对抗逆强化学习学习联合奖励策略选项

本文介绍了一种以对手生成网络为基础的新方法，以同时恢复反演强化学习中的奖励和策略选项，用于解决从专家演示中学习复杂任务的奖励函数。该方法在简单和复杂的连续控制任务中表现良好，展示了一次转移学习中的显著性能提高。

Sep, 2017

Option-Critic 架构

本文介绍了一种基于 options 框架下的 policy gradient theorems，提出了一种新的 option-critic 架构，能够同时学习 options 的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Sep, 2016