网络随机化：增强学习中通用的简单技术

ICLROct, 2019

网络随机化：增强学习中通用的简单技术

Network Randomization: A Simple Technique for Generalization in Deep Reinforcement Learning

Kimin Lee, Kibok Lee, Jinwoo Shin, Honglak Lee

TL;DR本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Abstract

deep reinforcement learning (RL) agents often fail to generalize to unseen environments (yet semantically similar to trained agents), particularly when they are trained on high-dimensional state spaces, such as images. In this paper, we propose a simple technique to improve a

deep reinforcement learning generalization randomized neural network monte carlo approximation robust features

发现论文，激发创造

量化强化学习的泛化能力

本文研究了深度强化学习中的过拟合问题，并使用程序生成的环境来构建不同的训练和测试集，其中引入了一个名为 CoinRun 的新环境，用作强化学习中泛化的基准。使用 CoinRun，作者发现代理程序会对相当大的训练集过拟合，还展示了更深层次的卷积体系结构以及传统监督学习中的方法，包括 L2 正则化，dropout，数据增强和批标准化等，能够提高泛化能力。

Dec, 2018

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

深度强化学习中的泛化分析调查

通过利用深度神经网络解决高维状态或动作空间中的问题，强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因，并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析，并有助于构建具有改进泛化能力的鲁棒深度神经策略。

Jan, 2024

深度强化学习中的泛化度量和特征描述

本篇论文重新审视了深度强化学习中表示学习的概念，并提出了几种定义，并在一个通用的测试任务上使用这些定义评估了算法的性能，结果表明代理在一些未被探索的状态下决策结果较差，这暗示我们需要更多的实验和分析，以支持表示学习的相关权利主张。

Dec, 2018

强化学习的鲁棒视觉域随机化

通过提出一种正则化方法，使得智能体在训练时只基于一个环境的变体进行训练，并在训练过程中对其学习到的状态表示进行正则化，以实现对不同领域的不变性，该方法比标准的域随机化技术更有效和鲁棒，并能实现相同的泛化分数。

Oct, 2019

探究连续深度强化学习中的泛化能力

本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战，并评估了改进泛化性能的几种技术，总结了迄今为止最稳健的技术。

Feb, 2019

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

通过程序化关卡生成，照亮深度强化学习的泛化问题

本文探讨了通过在训练中使用过程化生成的关卡如何增加模型的泛化性能，并研究了其与人类设计的关卡的关系。结果表明，通过降低难度、调整关卡设计，可以获得更好的性能表现，并进行了降维和聚类分析来评估关卡生成器的分布。

Jun, 2018

环境临近目标培训的意想不到的收获

通过添加可量化的参数噪声到训练的转移函数中，在新的环境中评估增强学习代理的推广能力。我们展示了在 60 个不同的 ATARI 游戏变体中，包括 PacMan、Pong 和 Breakout，通过在替代的噪声设置下训练代理能获得较好的结果。

Jan, 2024