零样本迁移在模仿学习中的应用

Oct, 2023

Zero-Shot Transfer in Imitation Learning

Alvaro Cauderan, Gauthier Boeshertz, Florian Schwarb, Calvin Zhang

TL;DR我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Abstract

We present an algorithm that learns to imitate expert behavior and can transfer to previously unseen domains without retraining. Such an algorith

algorithm expert behavior transfer learning deep reinforcement learning state representation

发现论文，激发创造

零样本视觉模仿

本文提出了一种无需专家指导，在探索环境中通过前向一致性损失生成目标导向的技能策略，并应用其中的零样本策略，成功地实现了 Baxter 机器人复杂绳子操作和 TurtleBot 在未知办公室环境中的导航。

Apr, 2018

通过观测映射和行为克隆的少样本策略转移框架

通过观察映射和行为克隆，本文提出了一个针对两个领域的少样本策略传递框架，利用生成对抗网络（GANs）和循环一致性损失将源领域和目标领域之间的观察映射，并将获取的映射用于将成功的源任务行为策略克隆到目标领域，进而实现有限目标任务交互情况下和源领域与目标领域在语义上不相似的情况下的成功行为策略传递。

Oct, 2023

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015

随机专家蒸馏：通过专家策略支持来进行模仿学习估计

本文提出一种新的模仿学习框架，通过估计专家策略的支持来计算固定的奖励函数，将模仿学习重新定位到标准的强化学习设置中，证明了该奖励函数在离散和连续域上的有效性，并在不同的强化学习算法下实现了与现有技术相当或更好的表现。

May, 2019

一次性模仿学习

本文旨在提出一个元学习框架，称之为一次学习，实现机器人从极少量的演示中学习，并即刻推广到相似的其他任务中。

Mar, 2017

学习有关的内容：使用任务相关嵌入的跨域模仿学习

本研究提出了一种基于对抗训练的可扩展框架，用于实现基于跨领域演示的自主智能体学习任务的能力，通过学习映射来实现不同领域间的策略转移，解决了其他方法在许多领域方面存在的问题。

Sep, 2022

泛化自驾车策略的模仿学习及模拟转现实

本文研究应用 Imitation Learning 和 transfer learning 方法解决 Duckietown 场景下的机器人车道跟踪问题，并通过 sim-to-real 方法进行实际环境迁移，最终比较了三种 Imitation Learning 方法和两种 sim-to-real 方法的优缺点。

Jun, 2022

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018

DARLA: 在强化学习中改进零样本迁移

该论文讨论利用多级深度强化学习代理 DARLA，通过学习离散化的环境表示，使策略更具鲁棒性实现领域自适应，该方法在不同的 RL 环境（Jaco arm, DeepMind Lab）和基本 RL 算法（DQN, A3C, and EC）中显示出比传统基线方法更好的性能表现。

Jul, 2017