深度抽象 Q 网络

Oct, 2017

Deep Abstract Q-Networks

Melrose Roderick, Christopher Grimm, Stefanie Tellex

TL;DR我们结合深度强化学习和现有的模型基础方法，使用由专家提供的状态抽象来解决长视野、稀疏奖励和高维输入的问题。我们的抽象方法在 Montezuma's Revenge 等领域比深度 Q 网络表现更好，并呈现出在以前方法中不存在的回溯行为。

Abstract

We examine the problem of learning and planning on high-dimensional domains with long horizons and sparse rewards. Recent approaches have shown great successes in many Atari 2600 domains. However, domains with

deep reinforcement learning abstraction long horizons sparse rewards montezuma's revenge

发现论文，激发创造

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

灰盒子：理解 DQNs

本文介绍了分析 Deep Q-networks（DQNs）的一种方法和工具，以及自动学习 Semi Aggregated Markov Decision Process（SAMDP）模型的算法。SAMDP 模型允许我们直接从特征中识别时空抽象，并且可以在今后的工作中用作子目标检测器。使用我们的工具，我们揭示了 DQNs 学习的特征以层次方式聚合状态空间，解释了其成功。此外，我们能够理解和描述 DQNs 为三个不同的 Atari2600 游戏学习的策略，并提出解释、调试和优化强化学习中深度神经网络的方式。

Feb, 2016

价值函数空间：面向技能的状态抽象实现长程推理

该论文探讨了如何使用层次强化学习来解决长期任务中存在的性能问题，并提出了一种名为 Value Function Spaces 的状态抽象方法，通过利用对应于每个低层技能的价值函数来表示任务相关信息，从而在迷宫解决和机器人操纵等任务中提高了性能及零样本泛化能力。

Nov, 2021

样本高效强化学习的动态抽象表示学习

本文介绍了一种新的从上至下的方法，用于在执行强化学习的同时构建状态抽象，动态计算一个基于 Q 值分散的抽象，结果表明，这种方法自动学习细调问题的抽象，具有较强的样本效率，并使强化学习代理明显优于现有方法。

Oct, 2022

解决组合复杂度高的长视界深度强化学习任务的挑战

通过提出一系列机器人任务，不需要额外的专业探索便可解决的优化问题，研究发现标准强化学习方法往往由于折扣而忽视长期影响，而通用层次强化学习方法则需要额外的抽象领域知识。

Jun, 2022

MAXQ 层次强化学习中的状态抽象

本篇论文研究了具有时间抽象的层次强化学习中的具有状态抽象的学习方法，证明了 MAXQ-Q 学习算法在一定的条件下收敛，并通过实验表明了状态抽象对 MAXQ-Q 学习的成功应用十分重要。

May, 1999

使用深层分层网络生成长期轨迹

本文利用专家示范解决关于建模长时间轨迹的问题，通过提出一种层次化神经网络结构，能够在高维状态空间中，自动识别长短期目标，进而实现不同于传统方法由单一策略为核心，解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例，通过专业体育分析师的判断得出，相较传统基准方法，作者提出的层次化策略能够生成更为真实的轨迹。

Jun, 2017

使用深度学习为分层机器人规划引导抽象化

本研究介绍了一种使用深度神经网络自动生成机器人特定体系结构进行环境预测和自动计算抽象状态和动作的方法，得到的结果可用于提高机器人的规划性能和可靠性。研究结果表明，所学习的抽象状态和动作可以与一种新型的多源双向分层机器人规划算法配合使用，在测试环境中的计划时间上的表现比现有技术的基准方法提高了近 10 倍。

Feb, 2022

从单次演示中学习 Montezuma's Revenge

提出了一种新的利用单一示范来学习解决 Montezuma's Revenge 等复杂探索任务的方法，该方法通过最大化奖励来训练代理，缩短了学习时间，降低了任务复杂度。

Dec, 2018

奖励预测聚类

通过聚类算法，构建奖励预测深度网络所需的状态抽象，加速高维可视控制任务的学习并实现通过预先训练的奖励预测表示网络在不重新训练的情况下加速学习的系统性跨分布传递。

Nov, 2022