神经精馏在强化学习中的状态表示瓶颈

Oct, 2022

神经精馏在强化学习中的状态表示瓶颈

Neural Distillation as a State Representation Bottleneck in Reinforcement Learning

Valentin Guillet, Dennis G. Wilson, Carlos Aguilar-Melchor, Emmanuel Rachelson

TL;DR通过模拟多个策略的过程进行知识蒸馏以及使用单个神经网络来学习有利特征的状态表示，可用于强化学习的多个任务之间的转移和更好的泛化能力，并通过选择重要变量、有效分离状态以及新任务的鲁棒性等三个标准对状态编码进行评估。

Abstract

Learning a good state representation is a critical skill when dealing with multiple tasks in reinforcement learning as it allows for transfer and better generalization between tasks. However, defining what consti

reinforcement learning state representation distillation transfer learning neural networks

发现论文，激发创造

强化学习中神经巩固的迁移学习

本文探索了使用网络蒸馏作为特征提取方法的转移学习，发现蒸馏不妨碍知识转移，包括从多个任务到一个新任务的转移，结果比没有使用蒸馏更优。

Oct, 2022

策略蒸馏的提炼

本文探究了深度强化学习中的知识转移工具：策略蒸馏（distillation），比较了各种不同形式并通过理论和实证分析确定了三种最佳蒸馏技术，其中新提出的期望熵正规化蒸馏在广泛的情况下能够保证收敛并加快学习速度。

Feb, 2019

对比表示蒸馏

通过对比学习的方式训练学生网络来实现更好的知识迁移，相比知识蒸馏等传统方法在单模型压缩、集成蒸馏和跨模态迁移等多种任务中表现更优，甚至在与知识蒸馏相结合时可以超越教师网络，这一方法在许多知识迁移任务中达到了最新的最佳表现。

Oct, 2019

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018

信息瓶颈下的传递和探索

提出了一种利用信息瓶颈机制学习判决状态的增值方法，通过对观察的状态进行分析，识别有潜力的子目标进行新的探索，并指导代理经过判决状态和状态空间的新区域。

Jan, 2019

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务，而不会忘记以前的任务。研究采用强化学习算法，应用于三轮全向机器人的 2D 导航任务，通过状态表征学习和策略蒸馏的方法，提高算法的样本效率与任务综合性能。

Jun, 2019

自动机蒸馏：神经符号转移学习用于深度强化学习

通过引入自动机蒸馏的形式的神经符号传递学习，以及静态传递和动态传递方法的使用，成功减少了找到各种决策任务的最佳策略所需的时间。

Oct, 2023

行为蒸馏

行为压缩是一种旨在将大型数据集压缩为少数合成示例的方法，以用作在训练新模型时可直接替换使用。本文提出行为压缩的概念，并介绍了 HaDES 方法，它可以发现仅需包含四个状态 - 动作对的数据集，通过监督学习训练出在连续控制任务中表现竞争水平的智能体，同时 HaDES 在神经进化强化学习领域表现出显著改进，并在标准的监督数据集压缩任务上取得了最先进的结果，最后，该方法的可视化结果可提供人类可解释的任务洞见。

Jun, 2024