不是所有任务都一样困难：具有动态深度路由的多任务强化学习

AAAIDec, 2023

不是所有任务都一样困难：具有动态深度路由的多任务强化学习

Not All Tasks Are Equally Difficult: Multi-Task Reinforcement Learning with Dynamic Depth Routing

Jinmin He, Kai Li, Yifan Zang, Haobo Fu, Qiang Fu...

TL;DR该研究通过动态深度路由（D2R）框架实现多任务强化学习，其中通过绕过中间模块灵活选择不同数量的模块来提高数据效率并解决不同策略的路由路径问题。该框架进一步引入 ResRouting 方法解决行为策略和目标策略在离策略训练过程中的差异路由路径问题，并设计了自动的路由平衡机制来促进未掌握任务的继续路由探索。在 Meta-World 基准测试中，通过该框架在各种机器人操作任务上进行了广泛实验，取得了具有显著提高的学习效率的最新成果。

Abstract

multi-task reinforcement learning endeavors to accomplish a set of different tasks with a single policy. To enhance data efficiency by sharing parameters across multiple tasks, a common practice segments the network into distinct modules and trains a →

multi-task reinforcement learning routing network dynamic depth routing resrouting method learning efficiency

发现论文，激发创造

软模块化的多任务强化学习

通过引入显式的模块化技术和路由网络，将多任务共享的参数进行重新配置，实现了适用于连续任务的软模块化方法，从而大幅提高了机器人操作任务的效率和性能。

Mar, 2020

多卡车多腿需求路线的深度强化学习

基于深度强化学习，使用编码器 - 解码器的注意机制生成的策略在某些车辆路径问题上表现出有效性，但在某些复杂车辆路径问题上，仍缺乏有效的强化学习方法。本研究针对一种包含多辆卡车和多段路径要求的车辆路径问题变体，扩展现有的编码器 - 解码器注意模型，使其能够处理多辆卡车和多段路径需求，并在日本汽车零部件制造商爱信公司的实际供应链环境中测试，发现我们的算法优于爱信公司的最佳解决方案。

Jan, 2024

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

全局路径规划的深度强化学习方法

本文提出了一种基于深度强化学习的全局路由方法，该方法可以在模拟环境中生成优化的路由策略，与传统的基于贪心算法的方法相比，该方法具有更高的灵活性和更优的效果，为未来数据驱动的路由方法的培训数据集和生成不同规模和约束条件的参数化全局路由问题集合提供了可能性。

Jun, 2019

Distral: 强大的多任务强化学习

该研究提出了 Distral 方法，在多任务学习中共享被压缩策略，该方法的优点是通过压缩来捕捉共性行为，从而实现数据效率的提高和更稳定的学习。

Jul, 2017

多样化动态路由用于视觉任务

该论文提出了一种名为 “Diversified Dynamic Routing” 的新型神经网络模型，通过无监督学习的方式解决了 Mixture of Experts 模型中存在的两个问题，用于在 Cityscapes 和 MS-COCO 上进行深度学习的语义分割和实例分割任务，相对于其他基准模型的表现有所提高。

Sep, 2022

基于深度强化学习的分层任务分解：拾取和放置子任务

提出一种多子任务增强学习的方法，将复杂的拾取和放置任务分解为低级子任务，并通过 DRL 方法学习，然后高级协调员将训练好的子任务组合来完成拾取和放置任务，此方法在样本效率方面表现优于以 LfD 为基础的基准方法，并在实际机器人系统中展示了鲁棒的抓握能力。

Feb, 2021

路由网络：自适应选择非线性函数用于多任务学习

本文提出了一种新的神经网络和训练算法 —— 路由网络（routing network），通过协同多智能体强化学习（collaborative multi-agent reinforcement learning）协同训练路由器（router）和功能块（function blocks），使得路由网络能够动态地组合不同的功能块以适应输入，从而在解决多任务学习（Multi-task learning）时大幅提升了准确性和收敛速度。

Nov, 2017

面向成本和时延敏感的虚拟网络功能部署和路由的多智能体深度强化学习

本文提出了一种基于多智能体深度强化学习的有效而新颖的方法，用于解决联合虚拟网络功能（VNF）部署和路由问题，该问题涉及多个不同需求的服务请求同时交付，并通过其延迟和成本敏感因素反映服务请求的不同需求，提出了基于参数移植的模型重新训练方法来处理网络拓扑发生更改的情况。

Jun, 2022

注意力多任务深度强化学习

本文提出了一种基于注意力机制的多任务深度强化学习方法，该方法可以自动将任务知识分组，并在可能的情况下实现积极的知识转移，避免任务干扰，并表现出可比较或优越的性能。

Jul, 2019