深度抽象 Q 网络
本文介绍了分析 Deep Q-networks(DQNs)的一种方法和工具,以及自动学习 Semi Aggregated Markov Decision Process(SAMDP)模型的算法。SAMDP 模型允许我们直接从特征中识别时空抽象,并且可以在今后的工作中用作子目标检测器。使用我们的工具,我们揭示了 DQNs 学习的特征以层次方式聚合状态空间,解释了其成功。此外,我们能够理解和描述 DQNs 为三个不同的 Atari2600 游戏学习的策略,并提出解释、调试和优化强化学习中深度神经网络的方式。
Feb, 2016
该论文探讨了如何使用层次强化学习来解决长期任务中存在的性能问题,并提出了一种名为 Value Function Spaces 的状态抽象方法,通过利用对应于每个低层技能的价值函数来表示任务相关信息,从而在迷宫解决和机器人操纵等任务中提高了性能及零样本泛化能力。
Nov, 2021
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于 Q 值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022
通过提出一系列机器人任务,不需要额外的专业探索便可解决的优化问题,研究发现标准强化学习方法往往由于折扣而忽视长期影响,而通用层次强化学习方法则需要额外的抽象领域知识。
Jun, 2022
本篇论文研究了具有时间抽象的层次强化学习中的具有状态抽象的学习方法,证明了 MAXQ-Q 学习算法在一定的条件下收敛,并通过实验表明了状态抽象对 MAXQ-Q 学习的成功应用十分重要。
May, 1999
本文利用专家示范解决关于建模长时间轨迹的问题,通过提出一种层次化神经网络结构,能够在高维状态空间中,自动识别长短期目标,进而实现不同于传统方法由单一策略为核心,解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例,通过专业体育分析师的判断得出,相较传统基准方法,作者提出的层次化策略能够生成更为真实的轨迹。
Jun, 2017
本研究介绍了一种使用深度神经网络自动生成机器人特定体系结构进行环境预测和自动计算抽象状态和动作的方法,得到的结果可用于提高机器人的规划性能和可靠性。研究结果表明,所学习的抽象状态和动作可以与一种新型的多源双向分层机器人规划算法配合使用,在测试环境中的计划时间上的表现比现有技术的基准方法提高了近 10 倍。
Feb, 2022
提出了一种新的利用单一示范来学习解决 Montezuma's Revenge 等复杂探索任务的方法,该方法通过最大化奖励来训练代理,缩短了学习时间,降低了任务复杂度。
Dec, 2018