QMDP-Net: 基于深度学习的部分可观察性规划

NIPSMar, 2017

QMDP-Net: 基于深度学习的部分可观察性规划

QMDP-Net: Deep Learning for Planning under Partial Observability

PDF

Peter Karkus, David Hsu, Wee Sun Lee

TL;DRQMDP-net 是一种用于部分可观测性下规划的神经网络结构，结合了无模型学习和基于模型的规划的优势，并在预备实验中在多项机器人任务中表现出强大性能。

Abstract

This paper introduces the qmdp-net, a neural network architecture for planning under partial observability. The →

qmdp-net neural network architecture partial observability model-based planning robotic tasks

发现论文，激发创造

关于提高 POMDP 上深度强化学习的方法

提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构，该体系结构使用 LSTM 层来学习潜在状态，以增强在多个部分可观察领域的学习性能，包括 Atari 游戏。

Apr, 2018

将算法规划和深度学习相融合用于部分可观测导航

提出了一种机器人系统的新方法，其中一个较大系统的每个构件都表示为可微分的程序，即深度神经网络，应用到一个具有挑战性的部分可观测机器人导航任务中。在预测性模拟实验中，成功训练 Navigation Networks（NavNets）来解决这个具有挑战性的部分可观察的导航任务。

Jul, 2018

符号网络：针对关系马尔可夫过程的广义神经策略

通过训练一组共享参数的 SymNet 模型，将 RDDL 的关系建模与神经网络结合，达到单次前向传播即可获得包括实例无关的策略和值函数在内的更加复杂的泛化策略，优于随机和现有策略，适用于九个 IPP C 领域。

Feb, 2020

动作规划网络：弥合基于学习和经典动作规划器之间的差距

本文介绍了 Motion Planning Networks (MPNet)，这是一种计算效率高、基于学习的神经规划器，用于解决运动规划问题。 MPNet 使用神经网络学习通用的近似最优启发式路径规划，在已知和未知环境中生成可连接路径，并结合传统的采样规划器，形成了一种混合方法。为了培训 MPNet 模型，我们提出了一种主动的连续学习方法，使 MPNet 能够从流媒体数据中学习，并在需要时主动要求专家演示，大大减少了培训数据。在各种 2D 到 7D 机器人配置空间的问题中，我们进行了性能评估，并验证了 MPNet 的鲁棒性。

Jul, 2019

用深度 Transformer Q 网络进行部分可观察强化学习

本文提出了一种基于 Transformer 和自注意力机制的全新架构 Deep Transformer Q-Networks（DTQN），可用于处理强化学习中的局部可见性、记忆和训练困难等问题，实验结果表明该模型相较于传统的循环神经网络方式在处理局部可视化任务时更加快速和稳定。

Jun, 2022

部分可观测环境下自主智能体复杂任务的无模型运动规划

该研究使用无模型强化学习方法解决了部分已知环境下自主智能体的运动规划问题，提出了一种基于线性时态逻辑和 Markov 决策过程的方法，并应用于无人机的实际控制中。

Apr, 2023

区分性深层 Dyna-Q: 对话策略学习的强韧规划

本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量，实验表明与 DDQ 相比，D3Q 的性能得到了显著提高，并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。

Aug, 2018

多智能体系统的深度策略推断 Q 网络

本文介绍了 DPIQN 和 DRPIQN，这两个深度增强学习网络通过使用从协作者和对手的原始观察中推断出的策略特征来改进对可控制代理的 Q 值预测，适用于具有不同策略的协作者、对手和可控制代理的多智能体系统中。作者通过 1 对 1 和 2 对 2 的经典足球游戏等多种多智能体场景中的实验证明了这两个模型的高性能。

Dec, 2017

部分可观察马尔可夫决策过程中的动态深度强化学习算法

通过将动作序列纳入来解决部分可观察马尔可夫决策过程，本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络，结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。

Jul, 2023

灰盒子：理解 DQNs

本文介绍了分析 Deep Q-networks（DQNs）的一种方法和工具，以及自动学习 Semi Aggregated Markov Decision Process（SAMDP）模型的算法。SAMDP 模型允许我们直接从特征中识别时空抽象，并且可以在今后的工作中用作子目标检测器。使用我们的工具，我们揭示了 DQNs 学习的特征以层次方式聚合状态空间，解释了其成功。此外，我们能够理解和描述 DQNs 为三个不同的 Atari2600 游戏学习的策略，并提出解释、调试和优化强化学习中深度神经网络的方式。

Feb, 2016