DisCoRL: 基于策略蒸馏的连续强化学习
研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务,而不会忘记以前的任务。研究采用强化学习算法,应用于三轮全向机器人的 2D 导航任务,通过状态表征学习和策略蒸馏的方法,提高算法的样本效率与任务综合性能。
Jun, 2019
本文研究在连续控制问题中如何将多个专项技能的策略组合在一起,为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术,同时还引入了一种输入注入方法来利用新的输入特征,最后,作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。
Feb, 2018
本文介绍了一种称为 Policy Distillation 的新方法,它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时,这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中,在实验中,这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。
Nov, 2015
本文提出了一种基于目标分布的通用任务表征方法,通过该方法可以实现针对不同任务的灵活重用技能,并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高效地学习这些策略。在多种机器人操作任务上的实验表明,该方法显著优于先前的方法,尤其是需要对新目标分布进行泛化的任务。
Apr, 2021
本文介绍了在生命周期内,机器人应该如何快速适应不断变化的环境,在强化学习领域下提出了离线蒸馏管道算法,解决了传统算法在新旧环境中表现的困境以及在多种环境中训练数据失衡等问题,并通过模拟仿生机器人步行任务的实验进行了检验。
Apr, 2022
通过辅助任务蒸馏,我们提出了一种增强学习(RL)方法,使其能够通过从辅助 RL 任务中提取行为来解决长期规划的机器人控制问题。AuxDistill 通过并行进行辅助任务的多任务 RL,并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上,实现了这一目标。我们证明了 AuxDistill 能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习,无需演示、学习课程或预训练技能。AuxDistill 在 Habitat 物体重新排列基准测试中取得了比之前最先进的基准线高 2.3 倍的成功率,并超过使用预训练技能和专家演示的方法。
Jun, 2024
通过引入 Continual Policy Distillation(CPD)框架,该研究介绍了一种实现多功能控制器的方法,以用于四指软抓手对不同形状和大小的物体进行旋转操作的柔性机器人手。该框架利用策略蒸馏(PD)从专家策略向不断发展的学生策略网络传递知识,并集成样本回放方法以增强泛化能力和避免灾难性遗忘。研究结果表明,CPD 框架在整合多个专家知识和实现多功能自适应手部操作任务方面具有较好的性能。
Apr, 2024
利用先前的经验来学习比用于经验收集的行为策略更好的政策的离线强化学习方法。与行为克隆相比,离线强化学习可以使用非专家数据和多模态行为策略。然而,离线强化学习算法在处理分布偏移和有效表示策略方面面临挑战,因为训练过程中缺乏在线交互。既往研究在离线强化学习中使用条件扩散模型来获取表示多模态行为的表达性政策。然而,它们没有针对缓解分布偏移状态泛化问题进行优化。我们提出了一种新方法,将状态重构特征学习纳入最近的一类扩散策略中,以解决分布外泛化问题。状态重构损失促进对状态的更加描述性表示学习,从而减轻分布外状态引起的分布偏移。我们设计了一个二维多模态上下文强化学习环境来展示和评估我们提出的模型。我们在这个新的环境以及几个 D4RL 基准任务上评估了我们模型的性能,实现了最先进的结果。
Jul, 2023
本文探究了深度强化学习中的知识转移工具:策略蒸馏(distillation),比较了各种不同形式并通过理论和实证分析确定了三种最佳蒸馏技术,其中新提出的期望熵正规化蒸馏在广泛的情况下能够保证收敛并加快学习速度。
Feb, 2019