强化学习中的策略转移的小样本图像到语义翻译

Jan, 2023

强化学习中的策略转移的小样本图像到语义翻译

Few-Shot Image-to-Semantics Translation for Policy Transfer in Reinforcement Learning

Rei Sato, Kazuto Fukuchi, Jun Sakuma, Youhei Akimoto

TL;DR本研究探讨采用图像到语义翻译技术进行政策传递，缓解基于视觉的机器人控制代理的学习困难问题。通过学习从图像到语义的映射，我们可以将在模拟器中预先训练的政策传递到现实世界中，从而消除学习花费和风险高的现实世界上策略的实时交互学习。此外，使用图像到语义映射在训练策略时具有计算效率和可解释性优势。我们提出了两种技术：在模拟器环境中使用转换函数的配对增强技术和主动学习，以解决图像到语义映射中的主要困难，即为产生训练数据的人工注释成本。我们观察到注释成本的降低，而传递的性能不会下降。因此，所提出的方法优于现有的未经注释的方法。

Abstract

We investigate policy transfer using image-to-semantics translation to mitigate learning difficulties in vision-based robotics control age

policy transfer image-to-semantics translation vision-based robotics sim-to-real transfer active learning

发现论文，激发创造

学习生成增强图像用于模拟到真实场景的策略迁移

本文探讨在模拟环境中学习机器人操作策略的方法，通过使用深度图像数据的随机扩增策略，实现了在非真实场景下学习并获得了验证。

Mar, 2019

通过观测映射和行为克隆的少样本策略转移框架

通过观察映射和行为克隆，本文提出了一个针对两个领域的少样本策略传递框架，利用生成对抗网络（GANs）和循环一致性损失将源领域和目标领域之间的观察映射，并将获取的映射用于将成功的源任务行为策略克隆到目标领域，进而实现有限目标任务交互情况下和源领域与目标领域在语义上不相似的情况下的成功行为策略传递。

Oct, 2023

自然语言有助于缩小 Sim2Real 鸿沟

通过使用自然语言描述图像作为统一的信号来捕捉底层的任务相关语义，我们提出了一种方法来解决在学习图像条件机器人策略时所面临的模拟与真实世界之间的视觉差距问题，该方法通过对大量模拟数据和少量真实演示进行同时训练，将图像编码器作为无域变迁的图像表示的基础，并取得了较之前的 Sim2Real 方法和 CLIP、R3M 等强大的视觉 - 语言预训练方法 25 至 40% 的性能提升。

May, 2024

通过图像翻译实现相关强化学习任务的迁移学习

通过将视觉迁移任务与控制策略分离，使用不对齐的 GANs 对目标到源域的视觉映射，再使用不完美演示的模仿学习进一步改进，提高了 Deep RL 在 Breakout 合成视觉变体和 Road Fighter 的传输行为中的样本效率和迁移能力。

May, 2018

虚拟到现实：在视觉语义分割中学习控制

为解决机器人虚拟世界到真实世界的迁移问题，本文提出了一种基于模块化架构、采用语义图像分割作为元表示的深度强化学习方法，实现了 RGB 图像到语义图像段转换。实验结果表明，该架构在避障和目标跟踪任务中表现优异，并在虚拟和真实环境中均明显优于基准方法。

Feb, 2018

RL-CycleGAN: 强化学习感知的模拟到真实领域的对抗生成网络

本论文提出了基于深度神经网络的强化学习在机器人抓取任务中的应用，以及利用生成模型进行图像仿真与真实环境之间的过渡。其中引入了 RL-scene 一致性损失用于图像翻译，可保证翻译操作是不变的，并在实现无监督领域转换的同时，训练出了 RL-CycleGAN 模型，该模型表现出了模拟到现实环境下最优的效果。

Jun, 2020

基于语言条件的语义搜索导向的机器人操作任务策略

我们提出了一种基于语言条件的语义搜索方法，从可用的示范数据集中获取在线搜索策略，在 CALVIN 基准测试中超过了基线性能，并展现了强大的零样本适应能力，对于扩展基于在线搜索策略的任务具有巨大的潜力。

Dec, 2023

Sim-Real 联合强化迁移学习在 3D 室内导航中的应用

本文介绍了一种基于对抗特征调整模型的 3D 室内导航机器人训练方法，通过视觉特征的转换与行为策略的模仿来提高机器人在真实环境中的表现。实验证明该方法能够在不需要额外人工注释的情况下，比基线方法表现提高 19.47%。

Apr, 2019

探索非配对图像翻译中的语义一致性，以生成外科应用数据

探索了无配对图像翻译技术在手术应用中生成具有语义一致性数据的可行性，并发现结构相似性损失和对比学习的简单组合方法取得了最有希望的结果。定量分析表明，使用这种方法生成的数据具有更高的语义一致性，可以更有效地用作训练数据。

Sep, 2023

面向城市场景实用语义图像合成

本文提出了一种使用无监督学习和鉴别器的框架，通过对城市场景生成逼真的照片来实现自主驾驶，避免大量验证和训练数据的高昂成本。

May, 2023