算法蒸馏下的上下文强化学习
使用 Actor-Learner Distillation 过程,我们可以在具有 ' 演员延迟 ' 限制的场景中,通过将学习进展从大容量学习器模型传输到小容量演员模型来利用大型模型容量,而不会超出演员的限制。 以部分可观察环境为背景,在多个具有挑战性的内存环境中,我们使用 Actor-Learner Distillation 恢复了 Transformer 学习器模型的明显样本效率增益,同时保持了 LSTM 演员模型的快速推理和减少总训练时间。
Apr, 2021
通过与环境的交互实现对未知任务的概括,我们提出了一种方法 AD^ε,该方法通过人类示范的较差策略引入噪音并逐渐改进,实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中,我们的方法相比于最佳策略改进了 2 倍。
Dec, 2023
通过辅助任务蒸馏,我们提出了一种增强学习(RL)方法,使其能够通过从辅助 RL 任务中提取行为来解决长期规划的机器人控制问题。AuxDistill 通过并行进行辅助任务的多任务 RL,并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上,实现了这一目标。我们证明了 AuxDistill 能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习,无需演示、学习课程或预训练技能。AuxDistill 在 Habitat 物体重新排列基准测试中取得了比之前最先进的基准线高 2.3 倍的成功率,并超过使用预训练技能和专家演示的方法。
Jun, 2024
本文提出了一种基于知识蒸馏算法优化神经网络的方法,利用传统无线通信系统优化的思路与新兴神经网络技术相结合,以提高性能和收敛速度,并在模拟实验中证明了该方法的优越性。
Aug, 2023
研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务,而不会忘记以前的任务。研究采用强化学习算法,应用于三轮全向机器人的 2D 导航任务,通过状态表征学习和策略蒸馏的方法,提高算法的样本效率与任务综合性能。
Jun, 2019
本文研究在连续控制问题中如何将多个专项技能的策略组合在一起,为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术,同时还引入了一种输入注入方法来利用新的输入特征,最后,作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。
Feb, 2018
我们提出了一种无需人工反馈的方法,从对比蒸馏中强化学习(RLCD)来使语言模型遵循自然语言规则。RLCD 使用模拟的偏好对来训练一个偏好模型,其中包含通过对比正面和负面提示生成的高质量和低质量例子。然后使用偏好模型通过强化学习来改善基础未对齐的语言模型。实证结果表明,RLCD 在三个不同的对齐任务(无害性、有帮助性和故事大纲生成)以及 7B 和 30B 模型规模的偏好数据模拟上优于 RLAIF(Bai 等,2022b)和上下文蒸馏(Huang 等,2022)对照组。
Jul, 2023
本文提出了 DisCoRL 方法,该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战,并在三个 2D 导航任务上进行了实验验证。
Jul, 2019