Distral: 强大的多任务强化学习
通过辅助任务蒸馏,我们提出了一种增强学习(RL)方法,使其能够通过从辅助 RL 任务中提取行为来解决长期规划的机器人控制问题。AuxDistill 通过并行进行辅助任务的多任务 RL,并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上,实现了这一目标。我们证明了 AuxDistill 能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习,无需演示、学习课程或预训练技能。AuxDistill 在 Habitat 物体重新排列基准测试中取得了比之前最先进的基准线高 2.3 倍的成功率,并超过使用预训练技能和专家演示的方法。
Jun, 2024
本文提出了 DisCoRL 方法,该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战,并在三个 2D 导航任务上进行了实验验证。
Jul, 2019
本文提出了一种基于注意力机制的多任务深度强化学习方法,该方法可以自动将任务知识分组,并在可能的情况下实现积极的知识转移,避免任务干扰,并表现出可比较或优越的性能。
Jul, 2019
我们研究了在多任务强化学习中共享表示的益处,以实现深度神经网络的有效使用。我们利用从不同任务中学习、分享共同特性的假设,有助于推广知识,从而比学习单个任务更有效地进行特征提取。通过在广泛使用的强化学习基准上进行实证评估,我们提出了三种强化学习算法的多任务扩展,并证明了在样本效率和性能方面相较于单任务具有显著改进。
Jan, 2024
研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务,而不会忘记以前的任务。研究采用强化学习算法,应用于三轮全向机器人的 2D 导航任务,通过状态表征学习和策略蒸馏的方法,提高算法的样本效率与任务综合性能。
Jun, 2019
本文介绍了一种称为 Policy Distillation 的新方法,它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时,这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中,在实验中,这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。
Nov, 2015
本论文提出了一种名为 DiGrad 的新方法,采用微分策略梯度来实现在单个 actor-critic 神经网络中学习多个共享动作的多个任务,在复杂的机器人系统中实现高效的多任务学习,同时在连续动作空间中优于相关方法。
Feb, 2018
本文研究在连续控制问题中如何将多个专项技能的策略组合在一起,为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术,同时还引入了一种输入注入方法来利用新的输入特征,最后,作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。
Feb, 2018
本研究旨在提出多源模块化转移学习技术,以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性,并进行了广泛而具有挑战性的视觉控制跨领域实验。
May, 2022