策略蒸馏

ICLRNov, 2015

Policy Distillation

Andrei A. Rusu, Sergio Gomez Colmenarejo, Caglar Gulcehre, Guillaume Desjardins, James Kirkpatrick...

TL;DR本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Abstract

Policies for complex visual tasks have been successfully learned with deep reinforcement learning, using an approach called deep Q-networks (DQN), but relatively large (task-specific) networks and extensive training are needed to achieve good performance. In this work, we present a novel method called policy distillation that can be used to extract the polic

deep reinforcement learning policy distillation multi-task learning atari domain efficient

发现论文，激发创造

策略蒸馏的提炼

本文探究了深度强化学习中的知识转移工具：策略蒸馏（distillation），比较了各种不同形式并通过理论和实证分析确定了三种最佳蒸馏技术，其中新提出的期望熵正规化蒸馏在广泛的情况下能够保证收敛并加快学习速度。

Feb, 2019

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务，而不会忘记以前的任务。研究采用强化学习算法，应用于三轮全向机器人的 2D 导航任务，通过状态表征学习和策略蒸馏的方法，提高算法的样本效率与任务综合性能。

Jun, 2019

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018

双重策略蒸馏

本文提出了一种双学习者的框架，名为双重策略蒸馏（DPD），其中两个学习者在同一环境中运行，以探索环境的不同方面并相互提取知识以增强他们的学习，并对几个连续控制任务进行实验，表明该框架可以在没有使用昂贵的教师模型的情况下，在具有学习基础的代理和函数逼近的情况下获得优越的性能。

Jun, 2020

决策 - 注意力的在线策略蒸馏

通过引入决策 - 注意力模块，我们提出了一种在线学习框架，不依赖于教师策略，能够在相同环境下不同策略之间转移知识，提高深度强化学习任务的性能。实验证明，我们的方法在不同任务中，相比于独立训练策略，在 PPO 和 DQN 算法上表现更好，有效地实现了不同策略间的知识转移，使智能体获得更多奖励。

Jun, 2024

自动机蒸馏：神经符号转移学习用于深度强化学习

通过引入自动机蒸馏的形式的神经符号传递学习，以及静态传递和动态传递方法的使用，成功减少了找到各种决策任务的最佳策略所需的时间。

Oct, 2023

Distral: 强大的多任务强化学习

该研究提出了 Distral 方法，在多任务学习中共享被压缩策略，该方法的优点是通过压缩来捕捉共性行为，从而实现数据效率的提高和更稳定的学习。

Jul, 2017

机器人操作任务的多摄像头视角到单摄像头视角知识蒸馏的视觉策略学习

本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法，在模拟和现实环境下进行了实验验证并取得了良好效果。

Mar, 2023

神经精馏在强化学习中的状态表示瓶颈

通过模拟多个策略的过程进行知识蒸馏以及使用单个神经网络来学习有利特征的状态表示，可用于强化学习的多个任务之间的转移和更好的泛化能力，并通过选择重要变量、有效分离状态以及新任务的鲁棒性等三个标准对状态编码进行评估。

Oct, 2022