通过观测映射和行为克隆的少样本策略转移框架

Oct, 2023

通过观测映射和行为克隆的少样本策略转移框架

A Framework for Few-Shot Policy Transfer through Observation Mapping and Behavior Cloning

Yash Shukla, Bharat Kesari, Shivam Goel, Robert Wright, Jivko Sinapov

TL;DR通过观察映射和行为克隆，本文提出了一个针对两个领域的少样本策略传递框架，利用生成对抗网络（GANs）和循环一致性损失将源领域和目标领域之间的观察映射，并将获取的映射用于将成功的源任务行为策略克隆到目标领域，进而实现有限目标任务交互情况下和源领域与目标领域在语义上不相似的情况下的成功行为策略传递。

Abstract

Despite recent progress in reinforcement learning for robotics applications, many tasks remain prohibitively difficult to solve because of the expensive interaction cost. transfer learning helps reduce the traini

reinforcement learning transfer learning sim2real transfer few-shot policy transfer generative adversarial networks (gans)

发现论文，激发创造

强化学习中的策略转移的小样本图像到语义翻译

本研究探讨采用图像到语义翻译技术进行政策传递，缓解基于视觉的机器人控制代理的学习困难问题。通过学习从图像到语义的映射，我们可以将在模拟器中预先训练的政策传递到现实世界中，从而消除学习花费和风险高的现实世界上策略的实时交互学习。此外，使用图像到语义映射在训练策略时具有计算效率和可解释性优势。我们提出了两种技术：在模拟器环境中使用转换函数的配对增强技术和主动学习，以解决图像到语义映射中的主要困难，即为产生训练数据的人工注释成本。我们观察到注释成本的降低，而传递的性能不会下降。因此，所提出的方法优于现有的未经注释的方法。

Jan, 2023

通过图像翻译实现相关强化学习任务的迁移学习

通过将视觉迁移任务与控制策略分离，使用不对齐的 GANs 对目标到源域的视觉映射，再使用不完美演示的模仿学习进一步改进，提高了 Deep RL 在 Breakout 合成视觉变体和 Road Fighter 的传输行为中的样本效率和迁移能力。

May, 2018

RL-CycleGAN: 强化学习感知的模拟到真实领域的对抗生成网络

本论文提出了基于深度神经网络的强化学习在机器人抓取任务中的应用，以及利用生成模型进行图像仿真与真实环境之间的过渡。其中引入了 RL-scene 一致性损失用于图像翻译，可保证翻译操作是不变的，并在实现无监督领域转换的同时，训练出了 RL-CycleGAN 模型，该模型表现出了模拟到现实环境下最优的效果。

Jun, 2020

零样本迁移在模仿学习中的应用

我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Oct, 2023

策略优化的政策转移

本研究提出了一种基于域随机化的控制策略迁移方法，通过同时学习多种不同行为的控制策略来应对目标环境与训练环境之间的差异，而无需对动态参数进行识别，实验表明该方法可以成功地解决模型误差较大的情况。

Oct, 2018

跨领域策略转移与效果循环一致性

我们提出了一种使用未配对数据学习领域之间状态和动作空间的映射函数的新方法，通过对过渡效果进行对称优化结构的方案，将机器人策略从源领域无缝转移到目标领域，实现了对于不同状态和动作空间的机器人之间的迁移学习和显著降低对齐误差的方法。

Mar, 2024

学习生成增强图像用于模拟到真实场景的策略迁移

本文探讨在模拟环境中学习机器人操作策略的方法，通过使用深度图像数据的随机扩增策略，实现了在非真实场景下学习并获得了验证。

Mar, 2019

通过任务蒸馏进行领域适应

使用图像识别数据集作为源域和目标域之间的桥梁，通过任务蒸馏框架，在不同仿真器之间成功地传输导航策略，并在传统领域适应基准上展现出有前途的结果。

Aug, 2020

SimGAN: 基于对抗强化学习的混合仿真器识别进行领域自适应

SimGAN 是一种基于深度神经网络和传统物理学模拟的混合仿真器，通过对抗强化学习实现域自适应，以解决机器人控制程序跨不同领域的转化问题。在六个机器人运动任务中，它比多个强基线性能更好。

Jan, 2021

在线少样本策略迁移原型对齐

研究了强化学习领域的领域自适应问题，提出了一种基于功能相似性的在线原型对齐框架 (OPA)，该框架能够在少数几周期内实现策略转移，即使从目标域获得的样本数量很少，也能表现出更好的转移性能。

Jun, 2023