PopArt 多任务深度强化学习
本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法,通过深度强化学习和模型压缩技术来训练一个单一的策略网络,并通过多个专家教师的指导来学习在不同任务中的行为,并使用先前的知识解决新任务。研究结果表明,该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题,为了说明其效果,我们在 Atari 游戏上进行了测试。
Nov, 2015
本文提出了一个开源的模拟基准测试,包含 50 个不同的机器人操作任务,以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现,发现这些算法在解决多任务时仍存在挑战,为未来的研究提供了实验环境。
Oct, 2019
本文提出了一种基于注意力机制的多任务深度强化学习方法,该方法可以自动将任务知识分组,并在可能的情况下实现积极的知识转移,避免任务干扰,并表现出可比较或优越的性能。
Jul, 2019
本研究主要关注于如何使用深度增强学习的方法,通过神经网络策略来训练机器人获取新的技能。同时,通过迁移学习,可以实现技能和机器人之间的信息共享,从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。
Sep, 2016
该论文介绍了一种深度强化学习代理,它不仅能够直接最大化累积奖励,在共同的表现下还能同时最大化许多其他伪奖励函数,该代理基于不受外部奖励影响的无监督学习得到共同的表现,并对外部奖励进行关注,可以快速适应实际任务,在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。
Nov, 2016
研究一种大规模集体机器人学习系统,可以同时获取多项行为并跨越不同任务,通过 MT-Opt 来学习广泛技能,并证明其在结构相似的新任务上可以泛化并且可以通过利用过去的经验更快地获取独特的新任务,从而提高系统的性能和功能。
Apr, 2021
该研究旨在用多任务软演员 - 评论家算法(MT-SAC)培训机械臂,以使其能够在 Meta World 环境中成功执行七项不同任务。接下来,训练模型将作为单一生命强化学习算法的先前数据,并通过在各种目标位置(新颖位置)进行测试来评估 MT-QWALE 算法的效果。最后,通过比较经过训练的 MT-SAC 和 MT-QWALE 算法,发现 MT-QWALE 的表现更好。消融研究表明即使隐藏了最终目标位置,MT-QWALE 也能够成功地完成任务,并且所需的步骤略多。
Oct, 2023