决策 - 注意力的在线策略蒸馏 | BriefGPT

Jun, 2024

决策 - 注意力的在线策略蒸馏

Online Policy Distillation with Decision-Attention

Xinqiang Yu, Chuanguang Yang, Chengqing Yu, Libo Huang, Zhulin An...

TL;DR通过引入决策 - 注意力模块，我们提出了一种在线学习框架，不依赖于教师策略，能够在相同环境下不同策略之间转移知识，提高深度强化学习任务的性能。实验证明，我们的方法在不同任务中，相比于独立训练策略，在 PPO 和 DQN 算法上表现更好，有效地实现了不同策略间的知识转移，使智能体获得更多奖励。

Abstract

policy distillation (PD) has become an effective method to improve deep reinforcement learning tasks. The core idea of PD is to distill policy knowledge from a teacher agent to a student agent. However, the teach

policy distillation online policy distillation decision-attention knowledge transfer reinforcement learning

发现论文，激发创造

双重策略蒸馏

本文提出了一种双学习者的框架，名为双重策略蒸馏（DPD），其中两个学习者在同一环境中运行，以探索环境的不同方面并相互提取知识以增强他们的学习，并对几个连续控制任务进行实验，表明该框架可以在没有使用昂贵的教师模型的情况下，在具有学习基础的代理和函数逼近的情况下获得优越的性能。

Jun, 2020

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

策略蒸馏的提炼

本文探究了深度强化学习中的知识转移工具：策略蒸馏（distillation），比较了各种不同形式并通过理论和实证分析确定了三种最佳蒸馏技术，其中新提出的期望熵正规化蒸馏在广泛的情况下能够保证收敛并加快学习速度。

Feb, 2019

在线多样化同行中的知识蒸馏

本文提出了一种双层蒸馏网络框架 OKDDip，其中包括多个辅助对等体和一个领导群体，辅助对等体通过注意力机制获取自己的预测目标，来作为组群内部的目标进行蒸馏学习，然后再将知识传递给领导群体，实现知识转移。实验结果表明，该框架在训练或推理复杂度上不会牺牲性能，相较于现有方法，可以提供更好的蒸馏效果。

Dec, 2019

在线动作检测的特权知识蒸馏

本文提出了一种基于特权信息学习的在线动作检测框架，其中包括知识蒸馏方法和 Privileged Knowledge Distillation (PKD) 方法，以缩小信息差并提高学习性能，并在两个常用的 OAD 基准测试 TVSeries 和 THUMOS14 上取得了当前最佳性能.

Nov, 2020

基于模型的规划提炼出有理论保证的策略改进

通过开发一种从基于模型的规划到策略的蒸馏方法，我们扩展了软负责人 - 评论者算法（SAC）的策略改进步骤，并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。

Jul, 2023

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

目标条件下的 Q 学习作为知识蒸馏

本篇论文研究了强化学习在目标条件环境下的表现，提出了一种基于知识蒸馏的 Q 值函数更新方法，可以显著提高高维度空间下的目标条件策略学习，同时在多目标学习中也可以有效应用。此外，本研究还提供了一些理论支持，表明所提出的方法只需要 O (d) 个转移数据就可以完成目标任务，相较于标准的离线算法 DDPG 的需要至少 O (d^2) 个转移数据学习一个最优策略。

Aug, 2022

机器人基于离线数据的终身学习中的遗忘和不平衡问题

本文介绍了在生命周期内，机器人应该如何快速适应不断变化的环境，在强化学习领域下提出了离线蒸馏管道算法，解决了传统算法在新旧环境中表现的困境以及在多种环境中训练数据失衡等问题，并通过模拟仿生机器人步行任务的实验进行了检验。

Apr, 2022