研究视觉强化学习中的预训练目标与泛化能力

ICMLJun, 2024

研究视觉强化学习中的预训练目标与泛化能力

Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning

Donghu Kim, Hojoon Lee, Kyungmin Lee, Dongyoon Hwang, Jaegul Choo

TL;DR通过在 50 个 Atari 游戏的 10 百万次转换上对 ResNet-50 模型进行预训练，并在各种环境分布下进行评估的 Atari 预训练基准（Atari-PB）实验证明，注重学习任务无关特征（如识别物体和理解时间动态）的预训练目标可增强在不同环境中的泛化能力，而注重学习任务特定知识（如识别代理和拟合奖励函数）的目标仅在与预训练数据集类似的环境中提高性能。

Abstract

Recently, various pre-training methods have been introduced in vision-based Reinforcement Learning (RL). However, their generalization ability remains unclear due to evaluations being limited to in-distribution e

pre-training methods vision-based reinforcement learning generalization ability atari-pb environment distributions

发现论文，激发创造

带有希尔伯特表示的基础政策

通过学习结构化表示并利用方向性移动跨越学习的潜在空间，我们提出了一种新的无监督框架，用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略，并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明，我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务，甚至经常优于针对每个场景专门设计的先前方法。

Feb, 2024

预训练物体中心表征在强化学习中的探究

本文通过实验探究并系统评估 OCR 预训练对于基于图像的强化学习原型任务的影响及其局限性，研究结果为在某些情况下 OCR 预训练使用的潜在局限性提供了实证证据，并分析了影响 OCR 预训练在强化学习中应用的关键因素，包括在视觉复杂环境中的性能和适当的汇聚层以聚合对象表示。

Feb, 2023

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018

量化强化学习的泛化能力

本文研究了深度强化学习中的过拟合问题，并使用程序生成的环境来构建不同的训练和测试集，其中引入了一个名为 CoinRun 的新环境，用作强化学习中泛化的基准。使用 CoinRun，作者发现代理程序会对相当大的训练集过拟合，还展示了更深层次的卷积体系结构以及传统监督学习中的方法，包括 L2 正则化，dropout，数据增强和批标准化等，能够提高泛化能力。

Dec, 2018

利用视频进行无动作预训练的强化学习

本文介绍了一种通过生成式预训练学习得到的视觉表示，用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型，并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构，该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型，以更好地实现探索。同时也提出了基于视频的内在激励奖励机制，利用预训练表示的优势，有效提升了数据利用率和最终权能的完成度。

Mar, 2022

DQN 中的泛化和正则化

本研究提出了一种在不同 Atari 2600 游戏模式下进行强化学习泛化评估的方法，并证明 DQN 存在过度训练环境的问题；通过适当运用 dropout 和正则化，以及优化表示来提高泛化能力，有效提升 DQN 的样本效率。

Sep, 2018

强化学习目标条件转移学习中的预训练词嵌入

本文探讨了如何通过预训练的任务无关语言模型促进强化学习中的迁移学习，以提高样本效率，并在一组对象导航任务上进行了实验验证。

Jul, 2020

深度强化学习中的预训练调查

该论文系统地评估了目前深度强化学习领域中采用的预训练方法，提出了分类体系、讨论了各个方面，并关注了未来可能遇到的挑战和需要探索的方向。

Nov, 2022

预训练视觉表示对稳健操控的成功因素

通过对 15 个预训练视觉模型的性能比较，发现视觉出现分割能力是 ViT 模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后，分割分数在离线训练和 50 次演示后预测了真实世界的性能。

Nov, 2023

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021