双重策略蒸馏

IJCAIJun, 2020

Dual Policy Distillation

Kwei-Herng Lai, Daochen Zha, Yuening Li, Xia Hu

TL;DR本文提出了一种双学习者的框架，名为双重策略蒸馏（DPD），其中两个学习者在同一环境中运行，以探索环境的不同方面并相互提取知识以增强他们的学习，并对几个连续控制任务进行实验，表明该框架可以在没有使用昂贵的教师模型的情况下，在具有学习基础的代理和函数逼近的情况下获得优越的性能。

Abstract

policy distillation, which transfers a teacher policy to a student policy has achieved great success in challenging tasks of deep reinforcement learning. This teacher-student framework requires a well-trained tea

policy distillation deep reinforcement learning collaborative learning dual policy distillation continuous control tasks

发现论文，激发创造

决策 - 注意力的在线策略蒸馏

通过引入决策 - 注意力模块，我们提出了一种在线学习框架，不依赖于教师策略，能够在相同环境下不同策略之间转移知识，提高深度强化学习任务的性能。实验证明，我们的方法在不同任务中，相比于独立训练策略，在 PPO 和 DQN 算法上表现更好，有效地实现了不同策略间的知识转移，使智能体获得更多奖励。

Jun, 2024

策略蒸馏的提炼

本文探究了深度强化学习中的知识转移工具：策略蒸馏（distillation），比较了各种不同形式并通过理论和实证分析确定了三种最佳蒸馏技术，其中新提出的期望熵正规化蒸馏在广泛的情况下能够保证收敛并加快学习速度。

Feb, 2019

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

合作式知识蒸馏：一种学生无关的方法

协作蒸馏（cooperative distillation）是一种新型的知识蒸馏方法，通过学生模型发现性能缺陷并寻找教师模型来产生反事实实例，提供了一种有效的方式传递知识，用于不同架构、算法及特征空间的学习者之间。该方法不仅在多个数据集上优于基线模型如迁移学习、自监督学习和多种知识蒸馏算法，还可以用于前述技术无法应用的情景。

Feb, 2024

生成对抗模拟器

在强化学习中，我们提出了一种无模拟器知识蒸馏的方法，通过重新初始化数据生成器，利用对抗损失来显式地处理每个输出类的多个观察值，以找到尽可能多的实例，从而改进了现有技术在 MNIST、Fashion-MNIST、CIFAR-10 等基准数据集上的学习情况，同时具体解决了涉及多输入模式时的问题。

Nov, 2020

双向蒸馏的多视角特征表示在对话生成中的应用

本文提出一种基于知识蒸馏的对话模型训练框架，通过分组多任务学习、多视角特征蒸馏和双向蒸馏等策略，找到多数据集共性知识以提高模型泛化性能。实验结果表明该框架可以有效地提高模型的泛化性能，而不影响训练效率。

Feb, 2021

近期师生学习研究综述

知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法，近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等，致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。

Apr, 2023

在线多样化同行中的知识蒸馏

本文提出了一种双层蒸馏网络框架 OKDDip，其中包括多个辅助对等体和一个领导群体，辅助对等体通过注意力机制获取自己的预测目标，来作为组群内部的目标进行蒸馏学习，然后再将知识传递给领导群体，实现知识转移。实验结果表明，该框架在训练或推理复杂度上不会牺牲性能，相较于现有方法，可以提供更好的蒸馏效果。

Dec, 2019

机器人操作任务的多摄像头视角到单摄像头视角知识蒸馏的视觉策略学习

本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法，在模拟和现实环境下进行了实验验证并取得了良好效果。

Mar, 2023

授课老师在蒸馏中的偏差：违抗是否值得？

通过一系列的实验，我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候，会使得学生网络的置信度更低，而之后引入知识蒸馏 (loss) 会恢复部分性能，同时我们提供了两种理论视角来理解这种现象，作为特征空间的正则化项和梯度去噪器。

Jan, 2023