具备继承特性的选项传输和 SMDP 抽象

IJCAIOct, 2021

具备继承特性的选项传输和 SMDP 抽象

Option Transfer and SMDP Abstraction with Successor Features

Dongge Han, Sebastian Tschiatschek

TL;DR本文研究了强化学习中的联合时间和状态抽象，其中采用继承特征的新颖抽象机制，使得抽象选项可以在不同环境下转移并进行有效规划。

Abstract

abstraction plays an important role in the generalisation of knowledge and skills and is key to sample efficient learning. In this work, we study joint temporal and state abstraction in →

abstraction temporal abstraction state abstraction reinforcement learning successor features

发现论文，激发创造

通过继承表征进行离散状态 - 行动抽象化

本文提出了一种自动学习基于状态抽象的离散化模型，命名为 Discrete State-Action Abstraction (DSAA)，可以有效地解决强化学习中的任务，并且对探索方案的影响进行了模拟和验证。

Jun, 2022

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

Successor Options: 基于继承关系的强化学习选项发现框架

探讨一种名为 Successor Options 的新方法，该方法使用 Successor Representations 构建状态空间模型，通过学习伪奖励来了解内部操作策略，并且适用于高维空间的机器人控制环境。

May, 2019

MAXQ 层次强化学习中的状态抽象

本篇论文研究了具有时间抽象的层次强化学习中的具有状态抽象的学习方法，证明了 MAXQ-Q 学习算法在一定的条件下收敛，并通过实验表明了状态抽象对 MAXQ-Q 学习的成功应用十分重要。

May, 1999

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

Option-Critic 架构

本文介绍了一种基于 options 框架下的 policy gradient theorems，提出了一种新的 option-critic 架构，能够同时学习 options 的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Sep, 2016

层次强化学习的抽象值迭代

提出一种新的基于连续状态和动作空间的控制的分层强化学习框架，其中用户指定状态的子集作为子目标区域，然后学习这些子目标区域之间的转换，并在生成的抽象决策过程 (ADP) 中构建高层计划，通过计划在抽象层和在具体层上的学习相结合的一个实际算法，优于现有的分层强化学习算法。

Oct, 2020

继承特征将模型无关和基于模型的强化学习元素相结合

本文分析了不同潜在状态空间的属性，发现了模型学习与模型自由强化学习之间的新联系，并表明对未来奖励结果预测有用的表征可在转换和奖励变化条件下进行推广，从而进一步实现模型学习和继承特征之间的联系。

Jan, 2019

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

强化学习中的后继特征迁移

我们提出了一种基于 successor features 和 generalized policy improvement 的转移框架，用于处理奖励函数在不同任务之间变化的情况，并且可以在不同任务之间自由地交换信息，同时具有转移策略的性能保证。在导航任务和控制模拟机械臂中，该方法成功地促进了优化的转移，明显优于其他方法.

Jun, 2016