SECANT: 自学习克隆以实现视觉策略的零样式泛化

ICMLJun, 2021

SECANT: 自学习克隆以实现视觉策略的零样式泛化

SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual Policies

Linxi Fan, Guanzhi Wang, De-An Huang, Zhiding Yu, Li Fei-Fei...

TL;DR本论文提出了一种名为 SECANT 的新型自我专家复制技术，旨在学习从弱增强到强增强的映像数据，以提高其对视觉变化的鲁棒性，在包括 DeepMind Control，机器人操作，基于视觉的自主驾驶和室内物体导航在内的四个具有挑战性的领域，SECANT 显着提高了 SOTA 的平均奖励。

Abstract

Generalization has been a long-standing challenge for reinforcement learning (RL). Visual RL, in particular, can be easily distracted by irrelevant factors in high-dimensional observation space. In this work, we consider robust policy learning which targets →

reinforcement learning zero-shot generalization secant self-expert cloning image augmentation

发现论文，激发创造

零样本视觉模仿

本文提出了一种无需专家指导，在探索环境中通过前向一致性损失生成目标导向的技能策略，并应用其中的零样本策略，成功地实现了 Baxter 机器人复杂绳子操作和 TurtleBot 在未知办公室环境中的导航。

Apr, 2018

基于显著性引导的 Q - 网络在视觉强化学习中的泛化

本研究通过引入基于显著性的 Q 网络（SGQN），提出了一种通用的视觉强化学习方法，该方法对 Deepmind 的控制泛化基准进行了改进，从而在训练效率、泛化差距和策略可解释性等方面创造了新纪录。

Sep, 2022

基于参数化专家的高效学习数据增强

本研究提出了一种名为增强型策略克隆（APC）的技术，通过使用合成状态在采样轨迹周围诱导反馈敏感性，从而显着减少了克隆专家所需的环境交互次数，实现了从专家到学生策略的高效数据迁移，适用于许多现有的算法。

May, 2022

零样本迁移在模仿学习中的应用

我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示，并通过学习一个单一的 Q 函数来模仿专家，我们结合了深度强化学习中的最新进展，从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难，以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性，这些环境的难度和迁移知识类型各不相同。

Oct, 2023

基于交叉轨迹表示学习的零样本泛化强化学习

本研究提出了一种名为 Cross-Trajectory Representation Learning（CTRL）的方法来训练一个无需奖励信号的编码器，使其将行为相似的观察结果映射到相似的表示空间中，以实现 RL 中的零 - shot 泛化，实验表明 CTRL 与 PPO 相结合可以更好地应对 Procgen 基准测试套件中的挑战。

Jun, 2021

通过观测映射和行为克隆的少样本策略转移框架

通过观察映射和行为克隆，本文提出了一个针对两个领域的少样本策略传递框架，利用生成对抗网络（GANs）和循环一致性损失将源领域和目标领域之间的观察映射，并将获取的映射用于将成功的源任务行为策略克隆到目标领域，进而实现有限目标任务交互情况下和源领域与目标领域在语义上不相似的情况下的成功行为策略传递。

Oct, 2023

学习生成增强图像用于模拟到真实场景的策略迁移

本文探讨在模拟环境中学习机器人操作策略的方法，通过使用深度图像数据的随机扩增策略，实现了在非真实场景下学习并获得了验证。

Mar, 2019

零样本模仿策略通过演示数据集搜索

使用预训练的基础模型的潜在空间索引演示数据集，通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题，实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型，能在 Minecraft 环境中以人类样式表现出智能行为。

Jan, 2024

强化学习中的策略转移的小样本图像到语义翻译

本研究探讨采用图像到语义翻译技术进行政策传递，缓解基于视觉的机器人控制代理的学习困难问题。通过学习从图像到语义的映射，我们可以将在模拟器中预先训练的政策传递到现实世界中，从而消除学习花费和风险高的现实世界上策略的实时交互学习。此外，使用图像到语义映射在训练策略时具有计算效率和可解释性优势。我们提出了两种技术：在模拟器环境中使用转换函数的配对增强技术和主动学习，以解决图像到语义映射中的主要困难，即为产生训练数据的人工注释成本。我们观察到注释成本的降低，而传递的性能不会下降。因此，所提出的方法优于现有的未经注释的方法。

Jan, 2023

广义零样本学习的合成样本选择

本文提出了一种基于强化学习进行合成特征选择的新方法，该方法利用 Transformer-based selector 根据验证分类精度选择特征，以此作为奖励，实验结果表明它比现有的特征生成方法表现更好。

Apr, 2023