强化学习的无监督视觉注意力与不变性

CVPRApr, 2021

强化学习的无监督视觉注意力与不变性

Unsupervised Visual Attention and Invariance for Reinforcement Learning

Xudong Wang, Long Lian, Stella X. Yu

TL;DR本研究提出了一种基于视觉前景的增强学习 (domain generalization) 方法，可以将环境中的干扰 (视觉噪声) 最小化，从而使得强化学习效果更佳。该方法基于无监督学习，使用关键点检测和视觉注意力机制进行前景提取并获得干净且不变的视觉输入。实验证明，该方法在 DeepMind 的控制任务中表现优于最新的基于视觉域的通用 (reinforcement learning) 方法。

Abstract

Vision-based reinforcement learning (RL) is successful, but how to generalize it to unknown test environments remains challenging. Existing methods focus on training an RL policy that is universal to changing visual domains, whereas we focus on extracting visual foreground that is univ

reinforcement learning unsupervised learning vision-based learning visual attention domain generalization

发现论文，激发创造

ViSaRL：人眼显著性引导的视觉强化学习

用基于视觉显著性引导的强化学习（ViSaRL）来训练机器人从高维像素输入中执行复杂的控制任务，通过优化视觉表征，ViSaRL 显著提高了强化学习代理在不同任务上的成功率、样本效率和泛化能力。

Mar, 2024

无监督模型预训练：从像素到高效控制

本文提出了一种基于无监督 RL 策略的数据高效视觉控制的方法，通过使用 Dyna-MPC 等组件的预训练来实现更快的任务适应，并且在大规模实证研究的基础上建立了一种强化学习方法，可以使无监督设计策略的性能大大提高。

Sep, 2022

利用视频进行无动作预训练的强化学习

本文介绍了一种通过生成式预训练学习得到的视觉表示，用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型，并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构，该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型，以更好地实现探索。同时也提出了基于视频的内在激励奖励机制，利用预训练表示的优势，有效提升了数据利用率和最终权能的完成度。

Mar, 2022

强化学习的鲁棒视觉域随机化

通过提出一种正则化方法，使得智能体在训练时只基于一个环境的变体进行训练，并在训练过程中对其学习到的状态表示进行正则化，以实现对不同领域的不变性，该方法比标准的域随机化技术更有效和鲁棒，并能实现相同的泛化分数。

Oct, 2019

自监督学习视频诱导视觉不变性

通过使用 Video-Induced Visual Invariances (VIVI) 的自监督学习框架，本文提出了一种可以在 19 种视觉任务中实现超过最佳监督模型的自监督转移学习方法。

Dec, 2019

基于提示的零样本策略转移中的视觉对齐

通过 prompt-based visual alignment (PVA) 框架中的语义信息作为显式约束，可以缓解图像中的有害领域偏见，实现零次策略转移，并在有限域数据的情况下实现跨领域学习。

Jun, 2024

领域对抗性强化学习

该研究解决强化学习中的泛化问题，通过领域对抗优化过程实现学习表征的视觉不变性，取得显著的泛化改进效果。

Feb, 2021

通过视觉重写规则学习可推广行为

本文提出了一种使用规则来捕获游戏动态的深度强化学习代理方法，该方法不使用神经网络，且在多个传统游戏中表现出优异的性能，极高的样本效率和强大的泛化能力。

Dec, 2021

VIBR：学习视角不变值函数进行鲁棒视觉控制

本文提出基于多视角训练和不变预测的 VIBR 算法，从根本上解决具有视觉干扰的复杂环境下强化学习及视觉运动控制的鲁棒性问题，并在 Distracting Control Suite 基准测试中取得了最优结果。

Jun, 2023

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018