深度策略的目标条件生成器

Jul, 2022

Goal-Conditioned Generators of Deep Policies

Francesco Faccio, Vincent Herrmann, Aditya Ramesh, Louis Kirsch, Jürgen Schmidhuber

TL;DR研究探讨了目标条件强化学习，使用上下文命令生成生成深度神经网络策略的权重矩阵的目标条件神经网络，并使用超网络和策略嵌入来扩展该方法以生成深层神经网络。通过实验证明，单个生成的策略生成器可以产生在训练过程中观察到的任何回报的策略，并且该算法在一组连续控制任务中表现出有竞争力的性能。

Abstract

Goal-conditioned reinforcement learning (RL) aims at learning optimal policies, given goals encoded in special command inputs. Here we study goal-conditioned neural nets (NNs) that learn to generate deep NN polic

reinforcement learning neural nets context-specific weight matrices policy generator continuous control tasks

发现论文，激发创造

使用内禀动机学习目标条件策略的深度强化学习

本文提出了一种新的无监督学习方法，名为具有内在动机的目标导向策略（GPIM）。通过将抽象级别的策略与目标条件策略联合学习，本方法在各种机器人任务中证明了其有效性和高效性，大大优于先前的技术。

Apr, 2021

使用深度神经网络学习广义反应策略

本文提出了一种新的学习规划的方法，使用深度神经网络学习 “广义反应策略”（GRP），以映射问题实例和状态到动作，并用于自动学习启发式函数，通过对两个困难的规划问题领域的广泛实验，我们展示了使用我们的方法可以简化决策制定的复杂性和减少人类干预。

Aug, 2017

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

神经逻辑强化学习

本文提出了一种名为神经逻辑强化学习（NLRL）的新算法，基于策略梯度方法和可微分归纳逻辑编程，通过一阶逻辑来表示强化学习中的策略，解决了深度神经网络难以解释和学习泛化能力低的问题。实验表明，该算法可以在不同的环境下归纳出解释性强且性能接近最优的策略。

Apr, 2019

关系神经网络能解决哪些规划问题？

本论文通过建立关系性神经网络的电路复杂度分析与目标回归搜索之间的联系，揭示了策略学习中的规划问题有三类，同时证明了电路宽度和深度与物体数量和规划周期成正比，从而得出了设计策略学习神经网络的实用性。

Dec, 2023

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

PlanGAN：基于模型的稀疏奖励和多目标规划

本研究提出了 PlanGAN，一种使用模型的算法，专门针对具有稀疏奖励环境的多目标任务进行求解，该算法比最成功的基于无模型 RL 算法的方法在提高 4-8 倍的样本效率下达到可比较的表现。

Jun, 2020

带有目标关系图的层次化和部分可观察的目标驱动策略学习

本研究提出一种新型的基于两层分层强化学习的目标驱动任务解决方法，使用 Goals Relational Graph 优化部分可观察的目标导向任务，例如目标驱动视觉导航，实验结果显示该方法在新环境和新目标上表现出卓越的泛化性能。

Mar, 2021

基于图神经网络的符号关系深度强化学习

通过图神经网络和自回归策略分解，构建了一个深度强化学习框架，在多样化场景下表现出了出色的竞争能力和卓越的零 - shot 泛化能力.

Sep, 2020

DisCo RL: 面向通用策略的分布条件强化学习

本文提出了一种基于目标分布的通用任务表征方法，通过该方法可以实现针对不同任务的灵活重用技能，并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高效地学习这些策略。在多种机器人操作任务上的实验表明，该方法显著优于先前的方法，尤其是需要对新目标分布进行泛化的任务。

Apr, 2021