强化学习中的惊奇最小化泛化

ICMLApr, 2020

Reinforcement Learning Generalization with Surprise Minimization

Jerry Zikun Chen

TL;DR在深度强化学习算法中，泛化仍然是一个具有挑战性的问题，本研究提出并评估了一个意外最小化代理，通过从一个简单的密度模型中学习到的额外奖励，在提供熵和随机性的程序生成游戏环境中呈现出鲁棒性。

Abstract

generalization remains a challenging problem for deep reinforcement learning algorithms, which are often trained and tested on the same set of deterministic game environments. When test environments are unseen an

deep reinforcement learning generalization surprise minimizing agent density model procedural generation

发现论文，激发创造

SMiRL：降低不稳定环境下惊喜的强化学习

本文提出 SMiRL 这个强化学习方法，该方法能让 agent 通过寻求稳定且可预测的情境，进而与环境中的熵对抗，从而能学会玩俄罗斯方块、Doom，控制机器人躲避跌落，以及在迷宫中躲避敌人而不需要任务特定奖励的监督。

Dec, 2019

无监督强化学习的混合惊喜

提出了一种名为 MOSS 的策略学习方法，通过训练一个同时最大化和最小化惊喜的混合组件来解决先前基于最大惊喜或最小惊喜的方法在真实世界环境中遇到的对环境动态熵的假设问题。实验结果表明，该方法在无监督强化学习领域达到了最新的最优表现。

Oct, 2022

网络随机化：增强学习中通用的简单技术

本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Oct, 2019

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018

零样本强化学习中的泛化探索

研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Jun, 2023

安全关键的强化学习中基于少量环境的泛化

本文研究深度强化学习中有限的训练环境对安全和泛化性能的影响，通过模型平均和使用阻塞分类器等简单方法，可显著降低在网格世界中的灾难情况，但在 CoinRun 环境中会存在一定失败率，然而可以通过系集的不确定性信息来预测是否需要人类干预。

Jul, 2019

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

量化强化学习的泛化能力

本文研究了深度强化学习中的过拟合问题，并使用程序生成的环境来构建不同的训练和测试集，其中引入了一个名为 CoinRun 的新环境，用作强化学习中泛化的基准。使用 CoinRun，作者发现代理程序会对相当大的训练集过拟合，还展示了更深层次的卷积体系结构以及传统监督学习中的方法，包括 L2 正则化，dropout，数据增强和批标准化等，能够提高泛化能力。

Dec, 2018

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017