辅助任务蒸馏的增强学习

Jun, 2024

Reinforcement Learning via Auxiliary Task Distillation

Abhinav Narayan Harish, Larry Heck, Josiah P. Hanna, Zsolt Kira, Andrew Szot

TL;DR通过辅助任务蒸馏，我们提出了一种增强学习（RL）方法，使其能够通过从辅助 RL 任务中提取行为来解决长期规划的机器人控制问题。AuxDistill 通过并行进行辅助任务的多任务 RL，并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上，实现了这一目标。我们证明了 AuxDistill 能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习，无需演示、学习课程或预训练技能。AuxDistill 在 Habitat 物体重新排列基准测试中取得了比之前最先进的基准线高 2.3 倍的成功率，并超过使用预训练技能和专家演示的方法。

Abstract

We present reinforcement learning via auxiliary task distillation (AuxDistill), a new method that enables reinforcement learning (RL) to p

reinforcement learning auxiliary task distillation multi-task rl long-horizon robot control embelished object rearrangement

发现论文，激发创造

Distral: 强大的多任务强化学习

该研究提出了 Distral 方法，在多任务学习中共享被压缩策略，该方法的优点是通过压缩来捕捉共性行为，从而实现数据效率的提高和更稳定的学习。

Jul, 2017

多技能动作控制的渐进式蒸馏强化学习

本文研究在连续控制问题中如何将多个专项技能的策略组合在一起，为了解决这个问题作者扩展了策略蒸馏方法并通过模拟双足步态跨越不同类地形的领域中评估了该技术，同时还引入了一种输入注入方法来利用新的输入特征，最后，作者使用迁移学习来协助高效地获得新的技能。作者将自己的逐步学习方法与三种替代基线进行了比较。

Feb, 2018

使用策略蒸馏和 Sim2Real 传输在现实中部署的连续强化学习

研究如何训练一个机器人能够在一个连续的学习情境中解决所有遇到的任务，而不会忘记以前的任务。研究采用强化学习算法，应用于三轮全向机器人的 2D 导航任务，通过状态表征学习和策略蒸馏的方法，提高算法的样本效率与任务综合性能。

Jun, 2019

DisCoRL: 基于策略蒸馏的连续强化学习

本文提出了 DisCoRL 方法，该方法结合状态表示学习和策略蒸馏来解决多任务强化学习中的挑战，并在三个 2D 导航任务上进行了实验验证。

Jul, 2019

算法蒸馏下的上下文强化学习

Algorithm Distillation 是一种将强化学习算法转化为神经网络的方法，其自动建模训练过程，通过一种因果推断模型来处理本文中的异步外展示学习问题。

Oct, 2022

策略蒸馏

本文介绍了一种称为 Policy Distillation 的新方法，它可以从强化学习代理中提取策略并训练出一个性能表现优异的、更小而且更高效的网络。同时，这种方法还可以将多个任务特定策略合并为一个策略并应用到 Atari 游戏中，在实验中，这个多任务提炼代理的表现要比单任务老师或联合训练的 DQN 代理更优秀。

Nov, 2015

辅助奖励生成与过渡距离表示学习

通过度量状态之间的转换距离，我们提出了一种新颖的表示学习方法，用于自动生成辅助奖励，以促进增强学习的效率和收敛稳定性。

Feb, 2024

自动机蒸馏：神经符号转移学习用于深度强化学习

通过引入自动机蒸馏的形式的神经符号传递学习，以及静态传递和动态传递方法的使用，成功减少了找到各种决策任务的最佳策略所需的时间。

Oct, 2023

比较强化学习表征学习的辅助任务

生成表示在强化学习中得到了稳步流行，由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较，基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示，辅助任务的表示学习对于维度和复杂度较高的环境是有利的，并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。

Oct, 2023

深度强化学习的数据增强高效调度

通过网络蒸馏方法，将语义一致性先验注入深度强化学习中以提高样本使用效率和泛化性能。

Jun, 2022