PopArt 多任务深度强化学习

Sep, 2018

Multi-task Deep Reinforcement Learning with PopArt

Matteo Hessel, Hubert Soyer, Lasse Espeholt, Wojciech Czarnecki, Simon Schmitt...

TL;DR该研究智能体如何在一次学习过程中掌握多个顺序决策任务。作者们提出一种自适应方法，使每个任务对学习过程的影响基本相同，并在 57 个不同类型的 Atari 游戏中取得了优异的表现，学习了一个超越人类表现的单一训练策略。

Abstract

The reinforcement learning community has made great strides in designing algorithms capable of exceeding human performance on specific tasks. These algorithms are mostly trained one task at the time, each new task requiring to train a brand new agent instance. This means the

reinforcement learning multi-task learning sequential-decision tasks learning algorithm atari games

发现论文，激发创造

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015

主动采样学习多任务

提出了一个高效的多任务学习框架，该框架采用主动学习原则来解决多个目标导向任务的问题，通过对 7 个多任务实例进行测试，实现了竞争性的多任务表现。

Feb, 2017

多任务强化学习的样本复杂度

介绍了一种新的多任务算法用于强化学习任务，该算法显着减少了探索的每个任务的样本复杂性，并保证不会出现负转移，与对应的单任务算法相比具有可比性。

Sep, 2013

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

注意力多任务深度强化学习

本文提出了一种基于注意力机制的多任务深度强化学习方法，该方法可以自动将任务知识分组，并在可能的情况下实现积极的知识转移，避免任务干扰，并表现出可比较或优越的性能。

Jul, 2019

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

MT-Opt: 大规模连续多任务机器人强化学习

研究一种大规模集体机器人学习系统，可以同时获取多项行为并跨越不同任务，通过 MT-Opt 来学习广泛技能，并证明其在结构相似的新任务上可以泛化并且可以通过利用过去的经验更快地获取独特的新任务，从而提高系统的性能和功能。

Apr, 2021

增强机器人操作：在元世界中利用多任务强化学习和单生命强化学习的力量

该研究旨在用多任务软演员 - 评论家算法（MT-SAC）培训机械臂，以使其能够在 Meta World 环境中成功执行七项不同任务。接下来，训练模型将作为单一生命强化学习算法的先前数据，并通过在各种目标位置（新颖位置）进行测试来评估 MT-QWALE 算法的效果。最后，通过比较经过训练的 MT-SAC 和 MT-QWALE 算法，发现 MT-QWALE 的表现更好。消融研究表明即使隐藏了最终目标位置，MT-QWALE 也能够成功地完成任务，并且所需的步骤略多。

Oct, 2023