深度集合用于 RL 中的泛化

ICLRMar, 2020

Deep Sets for Generalization in RL

Tristan Karch, Cédric Colas, Laetitia Teodorescu, Clément Moulin-Frier, Pierre-Yves Oudeyer

TL;DR本文研究了在自然语言引导下的强化学习中，将以对象为中心的表现编码到奖励函数和策略架构中的想法。通过使用受深度集合启发的对象排列不变网络和门控注意机制的组合，我们在二维过程生成的世界中显示出这些结构对于分布外的目标具有强大的泛化能力，同时我们研究了在测试时对象数量的泛化和将以对象为中心的架构扩展到涉及关系推理的目标。

Abstract

This paper investigates the idea of encoding object-centered representations in the design of the reward function and policy architectures

object-centered representations reward function policy architectures language-guided reinforcement learning relational reasoning

发现论文，激发创造

基于图神经网络的符号关系深度强化学习

通过图神经网络和自回归策略分解，构建了一个深度强化学习框架，在多样化场景下表现出了出色的竞争能力和卓越的零 - shot 泛化能力.

Sep, 2020

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018

关系深度强化学习

通过结构化感知和关系推理的方法，使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立，提高了强化学习的效率、泛化能力和可解释性，并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。

Jun, 2018

量化强化学习的泛化能力

本文研究了深度强化学习中的过拟合问题，并使用程序生成的环境来构建不同的训练和测试集，其中引入了一个名为 CoinRun 的新环境，用作强化学习中泛化的基准。使用 CoinRun，作者发现代理程序会对相当大的训练集过拟合，还展示了更深层次的卷积体系结构以及传统监督学习中的方法，包括 L2 正则化，dropout，数据增强和批标准化等，能够提高泛化能力。

Dec, 2018

面向通用机器人学习的深度目标中心表示

本文提出了一种方法来解决复杂开放环境下机器人操作的问题，该方法基于先前训练的通用视觉模型作为感知系统的对象先验，并引入了一个基于对象的注意机制来确定相关对象，通过少数轨迹或演示将这些对象纳入学习策略，使用强化学习可以学习多种操作任务。

Aug, 2017

深度强化学习中的泛化度量和特征描述

本篇论文重新审视了深度强化学习中表示学习的概念，并提出了几种定义，并在一个通用的测试任务上使用这些定义评估了算法的性能，结果表明代理在一些未被探索的状态下决策结果较差，这暗示我们需要更多的实验和分析，以支持表示学习的相关权利主张。

Dec, 2018

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

网络随机化：增强学习中通用的简单技术

本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Oct, 2019

预训练表示对强化学习智能体的 OOD 泛化的作用

通过训练 240 个表示和 1 万多个强化学习策略，评估先前训练的 VAE 表示的不同属性对前向代理的 OOD 泛化的影响，发现有些代理在现实分布变化的情况下仍然表现得非常稳健，而在简单的预测任务中的泛化表现可以可靠地预测代理在各种 OOD 设置下的泛化表现。

Jul, 2021

强化学习中的新动作泛化

本研究提出了一个两阶段的框架来解决强化学习模型对新任务中无法适应新动作的问题，首先从任务中获取动作信息来推理动作表示，然后通过泛化目标训练灵活适应不同动作集的策略，在选择新动作解决物理推理谜题和新三维形状堆叠等顺序任务的基准测试中得到了推广。

Nov, 2020