使用深度神经网络学习广义反应策略

Aug, 2017

使用深度神经网络学习广义反应策略

Learning Generalized Reactive Policies using Deep Neural Networks

Edward Groshev, Maxwell Goldstein, Aviv Tamar, Siddharth Srivastava, Pieter Abbeel

TL;DR本文提出了一种新的学习规划的方法，使用深度神经网络学习 “广义反应策略”（GRP），以映射问题实例和状态到动作，并用于自动学习启发式函数，通过对两个困难的规划问题领域的广泛实验，我们展示了使用我们的方法可以简化决策制定的复杂性和减少人类干预。

Abstract

We present a new approach to learning for planning, where knowledge acquired while solving a given set of planning problems is used to pla

planning learning neural network policy heuristic function

发现论文，激发创造

深度强化学习的广义计划

从小数据域中学习推导出可适用于远大于其所训练数据范围的领域的普遍性规则，本文研究了深度强化学习和图神经网络在学习这种广义策略的应用，并证明其具有普遍性。

May, 2020

使用 GNNs 学习通用策略而不需要监督

该研究利用图神经网络 (GNNs) 解决传统规划域的泛化策略学习问题。结果表明，这种方法可以获得最优性和广义性之间的平衡，从而实现泛化性能更好的规划。

May, 2022

深度学习任务中的目标识别：GRNet 方法

研究使用机器学习将目标识别问题转化为分类任务，利用循环神经网络预测代理目标，并在性能上优于现有方法。

Oct, 2022

深度预测策略训练采用强化学习

通过使用深度预测策略训练框架，该研究提出了一种有效的方法来训练预测动作策略，使用合成和模拟训练样本来强制进行视觉和运动数据的抽象，以及使用策略搜索强化学习方法来训练每个任务的策略超层，该框架在 PR2 机器人上训练物体抓取和投球等技能任务，并且训练样本只使用了约 180 次实际机器人尝试，达到了很好的效果。

Mar, 2017

利用强化学习进行神经运动规划

本研究通过比较监督式学习与强化学习算法，提出了一个适用于动作规划领域的 DDPG-MP 算法，该算法有助于解决运动规划中数据不足的问题，并在新领域的规划中实现了较快速度。

Jun, 2019

学习广义关系启发式网络进行模型无关规划

利用深度神经网络学习适用于不同对象及数量的通用启发式方法，以解决当前计算复杂性问题所依赖的手工编码符号动作模型和启发式函数生成器效率不高的问题。实证评估表明，由此方法计算的通用启发函数可轻松应用于不同对象、数量显著大于训练数据的问题。

Jul, 2020

深度反应策略在 MDP 规划中的转移

本论文提出了一种基于深度强化学习技术的 MDP planning domains 的无模型迁移学习算法，通过利用 RDDL 表示中的符号状态配置和转移函数，使得零 / 极少量训练和无需使用领域模拟器的迁移成为可能。

Oct, 2018

关系神经网络能解决哪些规划问题？

本论文通过建立关系性神经网络的电路复杂度分析与目标回归搜索之间的联系，揭示了策略学习中的规划问题有三类，同时证明了电路宽度和深度与物体数量和规划周期成正比，从而得出了设计策略学习神经网络的实用性。

Dec, 2023

带有目标关系图的层次化和部分可观察的目标驱动策略学习

本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法，使用 Goals Relational Graph 优化部分可观察的目标导向任务，例如目标驱动视觉导航，实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。

Mar, 2021

深度强化学习遇见图神经网络：探索一种路由优化用例

本篇论文提出在 Deep Reinforcement Learning 技术中，将 Graph Neural Networks 集成进 DRL 代理中，以解决网络拓扑的泛化问题，并在路由优化的用例中测试并评估其性能，结果表明，在未曾训练过的网络拓扑中，DRL+GNN 代理能够胜过目前最先进的解决方案。

Oct, 2019