面具世界模型的视觉控制

Jun, 2022

Masked World Models for Visual Control

Younggyo Seo, Danijar Hafner, Hao Liu, Fangchen Liu, Stephen James...

TL;DR通过自编码器和动态学习的分离以及辅助奖励预测目标的引入，提出了一种新的视觉模型 RL 框架，取得了 Meta-world 和 RLBench 的 50 项任务中，81.7% 的成功率的表现。

Abstract

visual model-based reinforcement learning (RL) has the potential to enable sample-efficient robot learning from visual observations. Yet the current approaches typically train a single model end-to-end for learning both visual representations and dynamics, making it difficult to accura

visual model-based reinforcement learning decoupling approach autoencoder dynamics learning robotic manipulation tasks

发现论文，激发创造

使用遮蔽视觉预训练的真实世界机器人学习

本文研究了利用自监督学习方法从真实世界的机器人任务中的多样化视频图像中进行视觉预训练，在多种机器人任务和实体上表现出了较高效果，并通过在 4.5M 张来自互联网和自怎样视角视频的大规模数据上进行的预训练，展示了对于机器人学习的视觉预培训的规模化提升的好处。

Oct, 2022

未来的重点：基于模型的强化学习中的自监督对应

本文提出基于自监督视觉对应学习的模型预测方法，证明了这种方法能够在视觉学习的强化学习中实现明显的性能提升，并通过模拟实验和硬件实验的验证显示出在一些情境下，这种预测模型具有更好的泛化性能。

Sep, 2020

RePo: 通过正则化后验可预测性提高强化学习模型的弹性

这篇论文提出了一种视觉模型驱动的强化学习方法，它学习到了一个对噪声和干扰具有弹性的潜在表示，通过鼓励表示能够最大程度地预测动态和奖励，并在观察和潜在表示之间限制信息流。此方法对于视觉干扰具有显著的抵抗力，在动态环境中能够有效运行。此外，作者还提出了一种简单的无奖励对齐过程，使得编码器能够在测试时进行快速适应，无需重新学习动态和策略。这项工作是使模型驱动的强化学习在动态多样的领域中成为实用和有用工具的一步，作者在模拟基准测试以及具有噪声电视背景的真实环境中展示了其有效性。

Aug, 2023

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

面具视觉预训练用于运动控制

本文表明，来自真实世界图像的自监督视觉预训练对于从像素学习运动控制任务是有效的；为了加快像素学习的进展，本文还贡献了一套手工设计的基准任务，其中包括运动、场景和机器人等方面的变化。通过防冻度量的视觉编码器和强化学习，我们实现了与带标签、状态估计或专家演示相比高达 80% 的绝对成功率，有时甚至能与理论最好状态匹敌；还发现，来自 YouTube 或自我中心视频等野外图像，对于各种操作任务的视觉表现比 ImageNet 图像更好。

Mar, 2022

提高基于图像的模型自由强化学习的样本效率

通过引入辅助损失以及消除后效性的影响，提出了一种简单且有效的方法，可以在 MuJoCo 控制任务上匹配最新的无模型和有模型算法，同时在观测噪声下表现出鲁棒性，并且过来了以往使用变分自动编码器所面临的发散问题。

Oct, 2019

深度空间自编码器用于视觉机器人学习

该研究采用增强学习的方法，通过深度空间自编码器从摄像头图像中直接学习状态表征，以实现对环境进行特征点提取和控制的闭环控制，展示了 PR2 机器人在推动自由玩具方块、使用铲子拿起一袋米和在不同位置将绳环悬挂在钩子上等任务中自动学习控制的成功案例。

Sep, 2015

学习潜在动态健壮表示的世界模型

利用视觉模型仿真提升强化学习效果，通过空时屏蔽策略和混合循环状态空间模型来准确捕捉环境的重要特征，以提高策略的学习与表现。

May, 2024

自监督适应深度神经网络实现机器人视觉操作

使用深度强化学习隐式地在仿真环境中学习潜在的状态表示，并通过无标签的真实机器人数据将其调整到真实环境中，以实现从像素中执行操作任务。通过序列自监督目标优化对比正向动力学损失，提出了一种更加有效的方法，成功地训练基于视觉的强化学习智能体来堆叠方块。

Oct, 2019

ViSaRL：人眼显著性引导的视觉强化学习

用基于视觉显著性引导的强化学习（ViSaRL）来训练机器人从高维像素输入中执行复杂的控制任务，通过优化视觉表征，ViSaRL 显著提高了强化学习代理在不同任务上的成功率、样本效率和泛化能力。

Mar, 2024