PaCo: 参数组合多任务强化学习

Oct, 2022

PaCo: Parameter-Compositional Multi-Task Reinforcement Learning

Lingfeng Sun, Haichao Zhang, Wei Xu, Masayoshi Tomizuka

TL;DR本文介绍了一种名为 PaCo 的参数组合方法，用于解决多任务强化学习中关于参数共享的挑战，并在 Meta-World 基准测试中取得了最先进的性能。

Abstract

The purpose of multi-task reinforcement learning (MTRL) is to train a single policy that can be applied to a set of different tasks. Sharing parameters allows us to take advantage of the similarities among tasks. However, the gaps between contents and difficulties of different tasks br

multi-task reinforcement learning parameter sharing policy subspace meta-world benchmarks optimization challenges

发现论文，激发创造

使用参数组合框架的高效多任务与迁移强化学习

本研究探讨了改进多任务训练以及在强化学习环境中的传递的潜力，提出了一种参数组合的方法来处理这一挑战，并通过在不同的操作任务上进行传递实验以证明其有效性。

Jun, 2023

混合正交专家的多任务强化学习

多任务强化学习 (MTRL) 通过共享表示，来克服代理程序普适性技能泛化的长期问题，本文介绍了在 MTRL 中学习共享多样性表示的一种新方法，称为 MOORE，它通过专家混合生成的表示的共享子空间来促进任务之间的多样性，研究表明 MOORE 在 MiniGrid 和 MetaWorld 两个基准测试中超过了其他相关基线，成为 MetaWorld 领域的最新技术成果。

Nov, 2023

通过任务特定的动作修正实现高效多任务强化学习

多任务强化学习中，通过引入任务特定的动作修正方法可以提高机器人的泛化能力，解决任务之间的冲突和负面干扰问题。该方法通过将策略学习分解为共享策略和动作修正策略，并引入稀疏奖励和拉格朗日方法，有效解决多目标多任务强化学习问题，实验结果显示其在样本效率和行为执行有效性上明显优于现有的方法。

Apr, 2024

可验证和组合的强化学习系统

提出了一种可验证和组合强化学习的框架，其中包含一组学习单独子任务的子系统，并填充入标准任务的高层模型，将各个子任务组合成全部任务，成功证明了该框架的实用性和有效性。

Jun, 2021

软模块化的多任务强化学习

通过引入显式的模块化技术和路由网络，将多任务共享的参数进行重新配置，实现了适用于连续任务的软模块化方法，从而大幅提高了机器人操作任务的效率和性能。

Mar, 2020

HarmoDT：用于离线强化学习的多任务决策协同变压器

HarmoDT 是一种融合多任务强化学习算法，通过使用 Transformer 架构的可扩展性和参数共享的优势来解决任务之间的相似性问题，并通过双层优化问题来确定每个任务的最佳参数子空间。

May, 2024

合作多智能体强化学习中常见实践的重新审视

围绕合作多智能体强化学习，实现了依照价值分解及参数共用两大设计原则，其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而，我们证明在某些环境中，比如高度多模式的奖励环境下，价值分解以及参数共享会引起问题并导致不良结果。相反，个体策略的策略梯度方法在这些情况下可以收敛到最优解，并部分支持最近在许多 MARL 测试床上表现良好的 PG 方法。得出实验结果后，我们提出实用建议，并在简化的矩阵和网格世界游戏以及 StarCraft 多代理挑战和谷歌研究足球等各种领域进行了实证验证。希望我们的研究能够为开发更普遍和更强大的 MARL 算法的社区带来益处。

Jun, 2022

通过选择性行为共享实现高效多任务强化学习

多任务强化学习中，通过共享行为可大幅提高探索效率和最终性能

Feb, 2023

基于逐步任务情境化的多智能体持续协调

本文提出了一种名为 MACPro 的方法，通过采用分解的策略来实现多智能体不断协调的能力，支持多类任务进行更好地管理和学习，并且在多项多智能体基准测试中表现出近乎最优的性能。

May, 2023

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019