DiGrad：共享动作的多任务强化学习

Feb, 2018

DiGrad：共享动作的多任务强化学习

DiGrad: Multi-Task Reinforcement Learning with Shared Actions

Parijat Dewangan, S Phaniteja, K Madhava Krishna, Abhishek Sarkar, Balaraman Ravindran

TL;DR本论文提出了一种名为 DiGrad 的新方法，采用微分策略梯度来实现在单个 actor-critic 神经网络中学习多个共享动作的多个任务，在复杂的机器人系统中实现高效的多任务学习，同时在连续动作空间中优于相关方法。

Abstract

Most reinforcement learning algorithms are inefficient for learning multiple tasks in complex robotic systems, where different tasks share a set of actions. In such environments a compound policy may be learnt wi

reinforcement learning multi-task learning shared neural network parameters continuous action spaces robotic systems

发现论文，激发创造

Distral: 强大的多任务强化学习

该研究提出了 Distral 方法，在多任务学习中共享被压缩策略，该方法的优点是通过压缩来捕捉共性行为，从而实现数据效率的提高和更稳定的学习。

Jul, 2017

共同体多智能体强化学习的参数共享深度确定性策略梯度

本文探讨基于 actor-critic 方法的合作多智能体问题，在局部观察设置下，在神经网络的基础上提出了参数共享确定性策略梯度方法，包括演员评论家共享、演员共享和部分共享评论家的演员共享等三个变体，该方法在学习速度、内存效率和智能体数量方面具有优势，并能充分利用奖励共享和交换特性。

Oct, 2017

深度多智能体强化学习与混合动作空间的进一步探索

本研究提出了两个基于集中式训练、分散式执行范式的深度多智能体软策略优化算法以解决混合行动空间问题，并在基本物理模拟和易于实现的多智能体环境下进行了实验验证并取得了良好的表现。

Aug, 2022

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

基于策略梯度的可扩展集中化深度多智体强化学习

探索使用强化学习解决多智能体问题，将多智能体强化学习问题视为分布式优化问题处理，假设多智能体群体中每个智能体的策略在参数空间中相近且可以用单一策略代替，结果表明该算法在协作和竞争任务上比现有方法更加有效。

May, 2018

用于有约束多任务强化学习的自然策略梯度和演员评论家方法

多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式，在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题，并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题，并研究了线性函数逼近的泛化扩展。

May, 2024

从头学习多模态行为的扩散策略梯度

本研究提出了深度扩散策略梯度（DDiffPG）算法，它能够学习参数化为扩散模型的多模态策略，并通过聚类和内在动机探索来发现和维持多样化行为，同时减少强化学习的贪婪性质，实现了模态之间的均衡改善以及对学习模态的显式控制。经验证明，该算法在复杂的高维连续控制任务中能够掌握多模态行为，并展示了在导航未知障碍迷宫中的动态在线重新规划的概念验证。

Jun, 2024

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

连续动作空间下的多智能体系统安全强化学习

本文介绍了在深度强化学习模型中添加安全层以确保多智能体控制问题的安全性的方法，该方法采用线性化单步转换动态的思想，并使用软约束解决了实施步骤中的不可行性问题，在保证软约束的约束满足性的基础上实现了学习过程中的安全控制。

Aug, 2021

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016