使用演员 - 学习者蒸馏技术在增强学习中提高 Transformer 效率

ICLRApr, 2021

使用演员 - 学习者蒸馏技术在增强学习中提高 Transformer 效率

Efficient Transformers in Reinforcement Learning using Actor-Learner Distillation

Emilio Parisotto, Ruslan Salakhutdinov

TL;DR使用 Actor-Learner Distillation 过程，我们可以在具有 ' 演员延迟 ' 限制的场景中，通过将学习进展从大容量学习器模型传输到小容量演员模型来利用大型模型容量，而不会超出演员的限制。以部分可观察环境为背景，在多个具有挑战性的内存环境中，我们使用 Actor-Learner Distillation 恢复了 Transformer 学习器模型的明显样本效率增益，同时保持了 LSTM 演员模型的快速推理和减少总训练时间。

Abstract

Many real-world applications such as robotics provide hard constraints on power and compute that limit the viable model complexity of Reinforcement Learning (RL) agents. Similarly, in many distributed RL settings, acting is done on un-accelerated hardware such as CPUs, which likewise restricts model size to prevent intractable experiment run times. These "ac

reinforcement learning actor-learner distillation transformer models lstms memory environments

发现论文，激发创造

算法蒸馏下的上下文强化学习

Algorithm Distillation 是一种将强化学习算法转化为神经网络的方法，其自动建模训练过程，通过一种因果推断模型来处理本文中的异步外展示学习问题。

Oct, 2022

后见之链中崛起的代理变形机

本文利用 “chain of hindsight” 方法在强化学习中训练了一个能够直接综合多个轨迹信息的 transformer 模型，并通过在 D4RL 和 ExoRL 基准测试中的表现证明了它的竞争力和可伸缩性。

May, 2023

RNN-Transducer 模型的高效知识蒸馏

本文提出了一种针对 RNN-Transducer 模型的知识蒸馏方法，通过对模型剪枝的过程结合知识蒸馏，实现了对小型模型精度的提高。实验结果表明，通过此方法可以在多种数据集上获得较好的性能提升。

Nov, 2020

离线演员 - 评论家强化学习在大规模模型中的扩展

离线演员 - 评论家强化学习能够扩展到大规模模型（如变压器）并遵循监督学习的相似扩展规律。我们发现，离线演员 - 评论家算法在 132 个连续控制任务的大型数据集上的多任务训练中，能够优于强大的监督式行为克隆基线。我们引入了一种基于感知机的离线演员 - 评论家模型，并阐明了使离线强化学习与自注意力和跨注意力模块配合工作的关键模型特征。总体而言，我们发现：i）简单的离线演员评论家算法是逐渐摆脱当前主导的行为克隆范式的自然选择，ii）通过离线强化学习，可以从次优示范或自生成数据中学习掌握多个领域的多任务策略，包括真实的机器人任务。

Feb, 2024

辅助任务蒸馏的增强学习

通过辅助任务蒸馏，我们提出了一种增强学习（RL）方法，使其能够通过从辅助 RL 任务中提取行为来解决长期规划的机器人控制问题。AuxDistill 通过并行进行辅助任务的多任务 RL，并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上，实现了这一目标。我们证明了 AuxDistill 能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习，无需演示、学习课程或预训练技能。AuxDistill 在 Habitat 物体重新排列基准测试中取得了比之前最先进的基准线高 2.3 倍的成功率，并超过使用预训练技能和专家演示的方法。

Jun, 2024

ELAD：解释引导的大型语言模型主动蒸馏

通过 Explanation-Guided LLMs Active Distillation (ELAD) 框架，我们引入了一种主动学习策略，以优化注释成本与模型性能之间的平衡；通过利用解释步骤中的不确定性，我们改进了高效样本选择方法；此外，我们还提出了一种定制化的 LLMM - 注释解释修订技术，以检测和修正学生模型推理中的缺陷。我们在各种推理数据集上的实验证明，我们的框架显著提高了 LLMM 知识蒸馏的效率。

Feb, 2024

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018

对话行为感知 Transformer 用于对话策略学习

利用预训练语言模型的纯文本知识，加速强化学习代理的学习速度，并通过探索对话行为空间最大化长期累积奖励，提出了一种对话行为感知的变压器编码器（DaTrans）。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。

Sep, 2023

拾獲的鬣狗：将 Transformer 精简为长卷积模型

介绍一种使用知识蒸馏进行架构间转移的方法，通过将注意力头替换为 Hyena，提供一种高效且经济的大规模语言模型预训练方法，既能处理长篇文本又能提高推理速度和准确性，以在 AI 领域追求可持续发展。

Jan, 2024

高效 Transformer 知识蒸馏：绩效评估

对高效注意力转换模型进行知识蒸馏的模型压缩评估，并通过新的长上下文命名实体识别数据集 GONERD 验证了高效注意力转换模型在保持原始模型性能的同时降低推理时间的效果。

Nov, 2023