算法蒸馏下的上下文强化学习

Oct, 2022

In-context Reinforcement Learning with Algorithm Distillation

Michael Laskin, Luyu Wang, Junhyuk Oh, Emilio Parisotto, Stephen Spencer...

TL;DRAlgorithm Distillation 是一种将强化学习算法转化为神经网络的方法，其自动建模训练过程，通过一种因果推断模型来处理本文中的异步外展示学习问题。

Abstract

We propose algorithm distillation (AD), a method for distilling reinforcement learning (RL) algorithms into neural networks by modeling their training histories with a →

algorithm distillation reinforcement learning neural networks learning history causal sequence model

发现论文，激发创造

使用演员 - 学习者蒸馏技术在增强学习中提高 Transformer 效率

使用 Actor-Learner Distillation 过程，我们可以在具有 ' 演员延迟 ' 限制的场景中，通过将学习进展从大容量学习器模型传输到小容量演员模型来利用大型模型容量，而不会超出演员的限制。以部分可观察环境为背景，在多个具有挑战性的内存环境中，我们使用 Actor-Learner Distillation 恢复了 Transformer 学习器模型的明显样本效率增益，同时保持了 LSTM 演员模型的快速推理和减少总训练时间。

Apr, 2021

噪声蒸馏下的上下文强化学习的出现

通过与环境的交互实现对未知任务的概括，我们提出了一种方法 AD^ε，该方法通过人类示范的较差策略引入噪音并逐渐改进，实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中，我们的方法相比于最佳策略改进了 2 倍。

Dec, 2023

辅助任务蒸馏的增强学习

通过辅助任务蒸馏，我们提出了一种增强学习（RL）方法，使其能够通过从辅助 RL 任务中提取行为来解决长期规划的机器人控制问题。AuxDistill 通过并行进行辅助任务的多任务 RL，并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上，实现了这一目标。我们证明了 AuxDistill 能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习，无需演示、学习课程或预训练技能。AuxDistill 在 Habitat 物体重新排列基准测试中取得了比之前最先进的基准线高 2.3 倍的成功率，并超过使用预训练技能和专家演示的方法。

Jun, 2024

自动机蒸馏：神经符号转移学习用于深度强化学习

通过引入自动机蒸馏的形式的神经符号传递学习，以及静态传递和动态传递方法的使用，成功减少了找到各种决策任务的最佳策略所需的时间。

Oct, 2023

从资源管理算法中提取知识以辅助神经网络的统一训练方法

本文提出了一种基于知识蒸馏算法优化神经网络的方法，利用传统无线通信系统优化的思路与新兴神经网络技术相结合，以提高性能和收敛速度，并在模拟实验中证明了该方法的优越性。

Aug, 2023

深度强化学习的数据增强高效调度

通过网络蒸馏方法，将语义一致性先验注入深度强化学习中以提高样本使用效率和泛化性能。

Jun, 2022

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务，而不会忘记以前的任务。研究采用强化学习算法，应用于三轮全向机器人的 2D 导航任务，通过状态表征学习和策略蒸馏的方法，提高算法的样本效率与任务综合性能。

Jun, 2019

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018

RLCD: 强化学习从对比教育中提炼的语言模型对齐

我们提出了一种无需人工反馈的方法，从对比蒸馏中强化学习（RLCD）来使语言模型遵循自然语言规则。RLCD 使用模拟的偏好对来训练一个偏好模型，其中包含通过对比正面和负面提示生成的高质量和低质量例子。然后使用偏好模型通过强化学习来改善基础未对齐的语言模型。实证结果表明，RLCD 在三个不同的对齐任务（无害性、有帮助性和故事大纲生成）以及 7B 和 30B 模型规模的偏好数据模拟上优于 RLAIF（Bai 等，2022b）和上下文蒸馏（Huang 等，2022）对照组。

Jul, 2023

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019