通过图像翻译实现相关强化学习任务的迁移学习

ICMLMay, 2018

通过图像翻译实现相关强化学习任务的迁移学习

Transfer Learning for Related Reinforcement Learning Tasks via Image-to-Image Translation

Shani Gamrian, Yoav Goldberg

TL;DR通过将视觉迁移任务与控制策略分离，使用不对齐的 GANs 对目标到源域的视觉映射，再使用不完美演示的模仿学习进一步改进，提高了 Deep RL 在 Breakout 合成视觉变体和 Road Fighter 的传输行为中的样本效率和迁移能力。

Abstract

Despite the remarkable success of deep rl in learning control policies from raw pixels, the resulting models do not generalize. We demonstrate that a trained agent fails completely when facing small visual changes, and that fine-tuning---the common →

deep rl generalization transfer learning gans imitation learning

发现论文，激发创造

强化学习任务状态对应关系的学习，用于知识迁移

该研究提出了一种基于生成对抗网络模型的一对一转移学习方法，旨在解决深度强化学习中新任务的知识重用和泛化问题。

Sep, 2022

通过观测映射和行为克隆的少样本策略转移框架

通过观察映射和行为克隆，本文提出了一个针对两个领域的少样本策略传递框架，利用生成对抗网络（GANs）和循环一致性损失将源领域和目标领域之间的观察映射，并将获取的映射用于将成功的源任务行为策略克隆到目标领域，进而实现有限目标任务交互情况下和源领域与目标领域在语义上不相似的情况下的成功行为策略传递。

Oct, 2023

强化学习中的策略转移的小样本图像到语义翻译

本研究探讨采用图像到语义翻译技术进行政策传递，缓解基于视觉的机器人控制代理的学习困难问题。通过学习从图像到语义的映射，我们可以将在模拟器中预先训练的政策传递到现实世界中，从而消除学习花费和风险高的现实世界上策略的实时交互学习。此外，使用图像到语义映射在训练策略时具有计算效率和可解释性优势。我们提出了两种技术：在模拟器环境中使用转换函数的配对增强技术和主动学习，以解决图像到语义映射中的主要困难，即为产生训练数据的人工注释成本。我们观察到注释成本的降低，而传递的性能不会下降。因此，所提出的方法优于现有的未经注释的方法。

Jan, 2023

机器人 VR 眼镜：基于实际到虚拟域适应的视觉控制

本文提出了一种新颖的方法来解决从模拟环境到真实世界的深度强化学习策略传输问题，通过在部署阶段将真实世界的图像流翻译回合成域来解决这个问题，同时提出了一种不受下游任务影响的简单而有效的位移损失以及在室内和室外机器人实验中验证了我们的视觉控制方法。

Feb, 2018

通过任务蒸馏进行领域适应

使用图像识别数据集作为源域和目标域之间的桥梁，通过任务蒸馏框架，在不同仿真器之间成功地传输导航策略，并在传统领域适应基准上展现出有前途的结果。

Aug, 2020

基于多源转移学习的深度模型强化学习

本研究旨在提出多源模块化转移学习技术，以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性，并进行了广泛而具有挑战性的视觉控制跨领域实验。

May, 2022

条件图像翻译

本文研究了一种新的有条件的图像翻译方法，并基于 GAN 和双学习处理了无成对数据的问题。实验结果表明该方法有效。

May, 2018

通过强化学习控制 GAN 的潜在空间：基于任务的图像到图像翻译案例研究

通过将强化学习（RL）代理与潜在空间生成对抗网络（l-GAN）相结合，我们提出了一种新的方法来解决 GAN 生成过程中控制的挑战。我们开发了一个具备精心设计的奖励策略的 actor-critic RL 代理，使其能够在 l-GAN 的潜在空间中导航并根据指定任务生成输出，通过使用 MNIST 数据集进行了一系列实验证明了我们方法的有效性。我们首次将 RL 代理与 GAN 模型集成，具有极大的潜力来增强生成网络。

Jul, 2023

图像对图像的深度强化学习翻译

通过深度强化学习将图像到图像翻译问题重新定义为逐步决策问题，提出了一种新的基于强化学习的框架，该框架将学习过程分解成小步骤，使用轻量级模型逐步转换源图像到目标图像，并引入次级策略和计划的概念来解决高维连续状态和动作空间的问题，在此框架中采用特定任务的辅助学习策略以稳定训练过程并提升性能。

Sep, 2023

RL-CycleGAN: 强化学习感知的模拟到真实领域的对抗生成网络

本论文提出了基于深度神经网络的强化学习在机器人抓取任务中的应用，以及利用生成模型进行图像仿真与真实环境之间的过渡。其中引入了 RL-scene 一致性损失用于图像翻译，可保证翻译操作是不变的，并在实现无监督领域转换的同时，训练出了 RL-CycleGAN 模型，该模型表现出了模拟到现实环境下最优的效果。

Jun, 2020