深层选项学习的特定于上下文的表示抽象

AAAISep, 2021

深层选项学习的特定于上下文的表示抽象

Context-Specific Representation Abstraction for Deep Option Learning

Marwa Abdulhai, Dong-Ki Kim, Matthew Riemer, Miao Liu, Gerald Tesauro...

TL;DR本文研究通过 Context-Specific Representation Abstraction for Deep Option Learning（CRADOL）框架学习因子化信念状态表示，以便于每个选项只学习状态空间的子集，从而减少策略空间搜索的规模，以提高分层强化学习（hierarchical reinforcement learning）中选项和行动的学习效率

Abstract

hierarchical reinforcement learning has focused on discovering temporally extended actions, such as options, that can provide benefits in problems requiring extensive exploration. One promising approach that lear

hierarchical reinforcement learning options option-critic context-specific representation abstraction sample efficiency

发现论文，激发创造

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

深度选项学习中权重共享的作用

本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展，可以显著提高使用长期选项训练游戏的稳定性和效率。

Dec, 2019

Option-Critic 架构

本文介绍了一种基于 options 框架下的 policy gradient theorems，提出了一种新的 option-critic 架构，能够同时学习 options 的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Sep, 2016

层次平均回报策略梯度算法

本文扩展了分层 option-critic 策略梯度定理，旨在通过使用基于常微分方程的方法分析，优化代理的策略，最大限度地获得马尔可夫链的最终奖励，并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。

Nov, 2019

注意力选项评论家

本文引入基于注意力机制的扩展方法到 option-critic 架构中，以实现带状态抽象的多样性 options 学习，有效解决了 option-critic 中出现的选项主导和频繁切换的问题，并在转移学习任务中展示出更高的效率，可解释性和重复利用性。

Jan, 2022

Safe Option-Critic: 在 Option-Critic 架构中学习安全性

本文提出了一种优化目标，通过鼓励智能体访问行为一致性较高的状态来学习安全选项，从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡，并借助策略梯度算法优化了受约束的目标函数。在实验中，该方法取得了较好的表现，降低了回报的方差，并在奖励结构具有内在变异性的环境中提升了性能。

Jul, 2018

DAC: 双重演员 - 评论家体系结构用于学习选项

研究了一种基于 MDPs 的新型选项框架，应用 Actor-Critic 算法学习内部选项策略，终止条件和选项的主策略，并在具有挑战性的机器人仿真任务中展示了 DAC 对于传输学习的优越性能。

Apr, 2019

多智体深度探索覆盖选项

通过 HA-MSAC 和协同机制来构造多智能体协作选项并提高协作效率和任务奖励。

Oct, 2022

具有显式上下文表示的深度强化学习

该研究提出了一种离散环境中的 Iota 显式上下文表示 (IECR) 框架，通过提取上下文关键帧 (CKFs) 实现了从环境中学习，并使用新算法在五个离散环境中取得了显著优于现有算法的收敛效果。

Oct, 2023

一种在高级和低级学习中可证明高效的基于期权的算法

在 Hierarchical Reinforcement Learning 的框架下，本研究通过使用不同的时间抽象层次交替使用相关算法，提出了一种用于解决有限时间间隔问题的元算法，从而初步理解了高层和低层策略同时学习的实际场景。

Jun, 2024