预训练表示对强化学习智能体的 OOD 泛化的作用

ICLRJul, 2021

预训练表示对强化学习智能体的 OOD 泛化的作用

The Role of Pretrained Representations for the OOD Generalization of Reinforcement Learning Agents

Andrea Dittadi, Frederik Träuble, Manuel Wüthrich, Felix Widmaier, Peter Gehler...

TL;DR通过训练 240 个表示和 1 万多个强化学习策略，评估先前训练的 VAE 表示的不同属性对前向代理的 OOD 泛化的影响，发现有些代理在现实分布变化的情况下仍然表现得非常稳健，而在简单的预测任务中的泛化表现可以可靠地预测代理在各种 OOD 设置下的泛化表现。

Abstract

Building sample-efficient agents that generalize out-of-distribution (OOD) in real-world settings remains a fundamental unsolved problem on the path towards achieving higher-level cognition. One particularly promising approach is to begin with low-dimensional, →

generalization pretrained representations out-of-distribution reinforcement learning proxy tasks

发现论文，激发创造

大规模天文调查中的样本外泛化：健壮网络学习相似表示

机器学习模型在处理来自未来天文调查的离域样本时依然面临挑战，解释性方法通过使用相似性度量来检查预训练卷积神经网络在中心核对齐方面的性能与表示相似性之间的关系，发现当模型对分布变化具有稳健性时，在离域数据上，图像在网络层之间的表示会有较大变化；然而，当模型无法泛化时，在离域数据上，这些表示在网络层之间的变化较小。讨论了这种相似性表示在模型设计、训练策略以及通过在训练过程中加入中心核对齐作为归纳偏差来缓解离域问题方面的潜在应用。

Nov, 2023

学习使辅助任务泛化的表示

本文主要研究在 assistive tasks 中应用 sim2real 技术时的问题，并提出了一种解决方案 —— 通过学习一种好的 latent representation 来匹配 test-time humans 能够准确映射到的人类策略，并且在 test-time 进行 fine-tune，这样能够更好地结构化人类策略。

Dec, 2022

预训练视觉表示对稳健操控的成功因素

通过对 15 个预训练视觉模型的性能比较，发现视觉出现分割能力是 ViT 模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后，分割分数在离线训练和 50 次演示后预测了真实世界的性能。

Nov, 2023

为数据高效的强化学习预训练表示

利用未标记数据预先训练编码器，然后在少量任务特定数据上微调，通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面，该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能

Jun, 2021

使用典型表示的强化学习

Proto-RL 是一种基于自我监督的框架，将表示学习与探索相结合，通过原型表示来实现，从而解决了强化学习中表示学习与探索之间的挑战，并在不带下游任务信息的环境中预训练这些任务无关的表示和原型，实现了一组困难的连续控制任务的最新下游策略学习。

Feb, 2021

强化学习中表征转移的可证明收益

本研究探讨了强化学习中的表征传递问题，提出了一种基于预训练和生成访问的新方法，可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。

May, 2022

带有希尔伯特表示的基础政策

通过学习结构化表示并利用方向性移动跨越学习的潜在空间，我们提出了一种新的无监督框架，用于从无标签的离线数据中预训练能够捕捉多样化、最优且长程行为的通用策略，并可以在零样本方式下快速适应任意新任务。在模拟机器人的运动和操作基准测试中的实验证明，我们的无监督策略可以以零样本的方式解决目标有条件的和通用 RL 任务，甚至经常优于针对每个场景专门设计的先前方法。

Feb, 2024

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

深度集合用于 RL 中的泛化

本文研究了在自然语言引导下的强化学习中，将以对象为中心的表现编码到奖励函数和策略架构中的想法。通过使用受深度集合启发的对象排列不变网络和门控注意机制的组合，我们在二维过程生成的世界中显示出这些结构对于分布外的目标具有强大的泛化能力，同时我们研究了在测试时对象数量的泛化和将以对象为中心的架构扩展到涉及关系推理的目标。

Mar, 2020

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023