MoVie: 基于模型的视图概括策略自适应

Jul, 2023

MoVie: 基于模型的视图概括策略自适应

MoVie: Visual Model-Based Policy Adaptation for View Generalization

Sizhe Yang, Yanjie Ze, Huazhe Xu

TL;DR本文提出了一种名为 MoVie 的视觉模型策略适应方法，通过在测试期间实现视图泛化，无需任何明确的奖励信号和任何训练期间的修改，可显著提高目标任务的性能表现，这表明该方法在实际中应用于机器人技术具有巨大的潜力。

Abstract

visual reinforcement learning (RL) agents trained on limited views face significant challenges in generalizing their learned abilities to unseen views. This inherent difficulty is known as the problem of $\textit{view generalization}$. In this work, we systematically categorize this fu

visual reinforcement learning view generalization model-based policies robotics applications dmcontrol

发现论文，激发创造

多视角强化学习

本文介绍了多视角强化学习（MVRL）模型，通过观察模型来解决决策问题，提出了两种求解方法：观察扩展和跨角度策略转移，实验证明这两种方法在处理多视角环境中具有较好的性能，减少样本复杂度和计算时间。

Oct, 2019

通过视觉重写规则学习可推广行为

本文提出了一种使用规则来捕获游戏动态的深度强化学习代理方法，该方法不使用神经网络，且在多个传统游戏中表现出优异的性能，极高的样本效率和强大的泛化能力。

Dec, 2021

视觉先见：基于模型的深度强化学习在基于视觉的机器人控制中的应用

本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法，并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型，通过选择指定像素、目标图像或图像分类器作为目标设定方法，探索实现前所未见的任务和物体的普遍泛化。

Dec, 2018

针对多样化视觉动作技能的强化学习和模仿学习

该研究提出了一种模型无关的深度强化学习方法，利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉 - 动力学策略，直接从 RGB 相机输入到关节速度。实验结果表明，与仅使用强化学习或模仿学习训练代理的结果相比，作者的强化和模仿代理取得了显著的性能提高。此外，这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。

Feb, 2018

Dreamitate: 通过视频生成进行真实世界视觉运动策略学习

在这篇论文中，我们提出了一种视觉 - 运动策略学习框架，该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段，我们生成了一个以新颖场景的图像为条件的任务执行示例，并直接使用这个合成的执行结果来控制机器人。我们的主要观点是，使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法，并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。

Jun, 2024

一个高效的通用化视觉动作策略框架：基于控制感知增强和特权引导蒸馏

通过数据增强来解决在学习高维视觉观察中适应新环境及复杂视觉变化所面临的泛化问题，提出了学习控制感知掩码的方法以及通过预先训练的强化学习专家将知识传输给学生视觉动作策略来解决训练不稳定性问题。

Jan, 2024

机器人操作任务的多摄像头视角到单摄像头视角知识蒸馏的视觉策略学习

本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法，在模拟和现实环境下进行了实验验证并取得了良好效果。

Mar, 2023

利用弱标记图像推广基于视觉的机器人技能

研究了机器人感知运动控制策略的广义学习问题，提出了一种称为 GPLAC 的方法来提高机器人策略的泛化能力，结合多任务学习和辅助二进制分类目标，通过卷积神经网络和注意力机制，将交互数据与弱标记的数据集相结合，大大提高了对未知环境的泛化能力。

Aug, 2017

RePo: 通过正则化后验可预测性提高强化学习模型的弹性

这篇论文提出了一种视觉模型驱动的强化学习方法，它学习到了一个对噪声和干扰具有弹性的潜在表示，通过鼓励表示能够最大程度地预测动态和奖励，并在观察和潜在表示之间限制信息流。此方法对于视觉干扰具有显著的抵抗力，在动态环境中能够有效运行。此外，作者还提出了一种简单的无奖励对齐过程，使得编码器能够在测试时进行快速适应，无需重新学习动态和策略。这项工作是使模型驱动的强化学习在动态多样的领域中成为实用和有用工具的一步，作者在模拟基准测试以及具有噪声电视背景的真实环境中展示了其有效性。

Aug, 2023

领域对抗性强化学习

该研究解决强化学习中的泛化问题，通过领域对抗优化过程实现学习表征的视觉不变性，取得显著的泛化改进效果。

Feb, 2021