使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

ICMLJun, 2019

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

Continual Reinforcement Learning deployed in Real-life using Policy Distillation and Sim2Real Transfer

René Traoré, Hugo Caselles-Dupré, Timothée Lesort, Te Sun, Natalia Díaz-Rodríguez...

TL;DR研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务，而不会忘记以前的任务。研究采用强化学习算法，应用于三轮全向机器人的 2D 导航任务，通过状态表征学习和策略蒸馏的方法，提高算法的样本效率与任务综合性能。

Abstract

We focus on the problem of teaching a robot to solve tasks presented sequentially, i.e., in a continual learning scenario. The robot should be able to solve all tasks it has encountered, without forgetting past tasks. We provide preliminary work on applying →

continual learning reinforcement learning state representation learning policy distillation omni-directional robot

发现论文，激发创造

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

机器人基于离线数据的终身学习中的遗忘和不平衡问题

本文介绍了在生命周期内，机器人应该如何快速适应不断变化的环境，在强化学习领域下提出了离线蒸馏管道算法，解决了传统算法在新旧环境中表现的困境以及在多种环境中训练数据失衡等问题，并通过模拟仿生机器人步行任务的实验进行了检验。

Apr, 2022

基于强化学习的软体机械手控制器的持续策略蒸馏

通过引入 Continual Policy Distillation（CPD）框架，该研究介绍了一种实现多功能控制器的方法，以用于四指软抓手对不同形状和大小的物体进行旋转操作的柔性机器人手。该框架利用策略蒸馏（PD）从专家策略向不断发展的学生策略网络传递知识，并集成样本回放方法以增强泛化能力和避免灾难性遗忘。研究结果表明，CPD 框架在整合多个专家知识和实现多功能自适应手部操作任务方面具有较好的性能。

Apr, 2024

辅助任务蒸馏的增强学习

通过辅助任务蒸馏，我们提出了一种增强学习（RL）方法，使其能够通过从辅助 RL 任务中提取行为来解决长期规划的机器人控制问题。AuxDistill 通过并行进行辅助任务的多任务 RL，并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上，实现了这一目标。我们证明了 AuxDistill 能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习，无需演示、学习课程或预训练技能。AuxDistill 在 Habitat 物体重新排列基准测试中取得了比之前最先进的基准线高 2.3 倍的成功率，并超过使用预训练技能和专家演示的方法。

Jun, 2024

策略蒸馏的提炼

本文探究了深度强化学习中的知识转移工具：策略蒸馏（distillation），比较了各种不同形式并通过理论和实证分析确定了三种最佳蒸馏技术，其中新提出的期望熵正规化蒸馏在广泛的情况下能够保证收敛并加快学习速度。

Feb, 2019

DiAReL: 机器人控制中的扰动感知鲁棒性 Sim2Real 策略迁移强化学习

本文研究了引入扰动估计的延迟条件下，通过扩展状态空间的方式应用马尔可夫决策过程的新方法，可以提高机器人控制的稳定性和鲁棒性。

Jun, 2023

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

泛化自驾车策略的模仿学习及模拟转现实

本文研究应用 Imitation Learning 和 transfer learning 方法解决 Duckietown 场景下的机器人车道跟踪问题，并通过 sim-to-real 方法进行实际环境迁移，最终比较了三种 Imitation Learning 方法和两种 sim-to-real 方法的优缺点。

Jun, 2022