通过元学习子目标发现选项

Feb, 2021

Discovery of Options via Meta-Learned Subgoals

Vivek Veeriah, Tom Zahavy, Matteo Hessel, Zhongwen Xu, Junhyuk Oh...

TL;DR使用元梯度法发现多任务强化学习环境中有用的选项的新方法，该方法使用一个管理器将发现的任务选项和基本操作结合在一起，并通过神经网络优化子目标的奖励和终止函数，实验证明该方法可以在学习过程中快速发现有意义和多样化的时间扩展选项，并且帮助初学者的学习速度更快。

Abstract

temporal abstractions in the form of options have been shown to help reinforcement learning (RL) agents learn faster. However, despite pri

temporal abstractions options reinforcement learning multi-task rl neural networks

发现论文，激发创造

基于模型的强化学习中的尊重奖励的子任务

为了实现人工智能的宏伟目标，强化学习必须包括使用抽象的状态和时间模型进行规划。本文提出了一种新的子任务方法，该方法使用原始奖励加上基于选项停止时的状态特征的奖励作为子任务，以生成选项和选项模型，解决了以往学术研究忽略问题的情况。结果表明，这种子任务生成的选项和选项模型在规划中更有效，并且可以使用现有的学习算法进行在线和非策略学习。最后，本文还展示了如何使用通用价值函数统一算法，从而统一了学习价值、策略、选项和模型的方法。

Feb, 2022

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

多任务选项学习与发现在随机路径规划中的应用

应用强化学习模式下，通过数据驱动方法生成抽象状态，计算有效的选项和高级实现路径，从而获得可执行和可解决性的强大保证。

Sep, 2022

多智体深度探索覆盖选项

通过 HA-MSAC 和协同机制来构造多智能体协作选项并提高协作效率和任务奖励。

Oct, 2022

用预算强化学习实现选项发现

本研究关注 Reinforcement Learning 中学习层次策略的问题，提出了一种新的学习模型 Budgeted Option Neural Network（BONN）来自动发现决策过程中的选项，并在不同的经典 RL 问题上取得了有趣的定量和定性结果。

Nov, 2016

基于深度后继表示的特征值选项发现

本研究论文以最近提出的使用表征学习方法指导 option 发现过程的想法为重点，扩展了现有算法以适应具有随机转换且不存在人工特征的环境，并提出了一种算法，用于从原始图像中学习非线性状态表示，从而发现 eigenoptions，从传统表格模型和 Atari 2600 游戏中的实验结果表明，该算法具有潜力。

Oct, 2017

多层深度选项的发现

本文提出了一种名为 DDO 的政策梯度算法，用于从一组演示轨迹中发现参数化选项，可递归地用于发现层次结构的附加级别，解决了手动设计选项在高维抽象状态空间中难以实现的问题，提高了深度 Q 网络代理学习的效率。DDO 可加速学习 4/5 个 Atari RAM 环境，并在机器人辅助手术视频和动态学方面具有发现结构的能力。

Mar, 2017

在线发现目标的元梯度强化学习

本文介绍的一种基于元梯度下降的算法可以通过与环境的交互经验发现自己的目标，并灵活地以深度神经网络为参数。随着时间的推移，该算法可以学习如何学习，最终在 Atari Learning Environment 上表现出比强化学习基准测试更高的得分。

Jul, 2020

发现具有时间感知的强化学习算法

最近的元学习进展使得可以自动发现由代理目标函数参数化的新型强化学习算法。本文提出一种对两种现有目标发现方法进行简单扩展的方案，允许在智能体的训练过程中动态更新其目标函数，从而获得具有表达能力的进度表，并增加在不同训练时间范围内的泛化能力。

Feb, 2024

深度强化学习的分类选项

本文将一个分层强化学习方法 —— 选项框架与深度 Q 网络结合起来，通过在策略网络上使用不同的 “选项头” 以及用于选择不同选项的监督网络，探究子任务在正 / 负转移方面对架构约束的影响，并通过实证方法证明，增强型深度 Q 网络同时学习具有负转移的子任务的样本复杂性较低，而在学习具有正转移的子任务时不会降低性能。

Apr, 2016