智能体会做电子绵羊的梦吗？通过生成学习提高强化学习的泛化能力

Mar, 2024

智能体会做电子绵羊的梦吗？通过生成学习提高强化学习的泛化能力

Do Agents Dream of Electric Sheep?: Improving Generalization in Reinforcement Learning through Generative Learning

Giorgio Franceschelli, Mirco Musolesi

TL;DR通过基于想象力的强化学习，使用梦境般的片段来训练策略，并通过生成扩增对非想象力、预测轨迹进行修改，实验表明与经典的想象力和脱机训练相比，我们的方法在处理收益稀疏环境时可以达到更高水平的泛化。

Abstract

The overfitted brain hypothesis suggests dreams happen to allow generalization in the human brain. Here, we ask if the same is true for reinforce

overfitted brain hypothesis dreams reinforcement learning agents imagination-based reinforcement learning sparsely rewarded environments

发现论文，激发创造

控制梦境：通过潜在想象学习行为

使用潜意识想象力，在学习世界模型的基础上，Dreamer 这一强化学习代理能够纯粹通过图像解决长周期任务，具有数据效率高，计算时间短和最终性能强等优势。

Dec, 2019

基于网格的强化学习环境中的通用和可解释知识学习

使用程序合成方法对深度强化学习代理进行模仿，以了解其学习的概念和决策过程。

Sep, 2023

战略博士：基于模型的多面手代理器与战略梦想

通过引入一个新的梦想策略，基于模型的强化学习智能体在寻路任务中展示出比基于像素的方法更出色的性能。

Feb, 2024

通过程序化关卡生成，照亮深度强化学习的泛化问题

本文探讨了通过在训练中使用过程化生成的关卡如何增加模型的泛化性能，并研究了其与人类设计的关卡的关系。结果表明，通过降低难度、调整关卡设计，可以获得更好的性能表现，并进行了降维和聚类分析来评估关卡生成器的分布。

Jun, 2018

量化强化学习的泛化能力

本文研究了深度强化学习中的过拟合问题，并使用程序生成的环境来构建不同的训练和测试集，其中引入了一个名为 CoinRun 的新环境，用作强化学习中泛化的基准。使用 CoinRun，作者发现代理程序会对相当大的训练集过拟合，还展示了更深层次的卷积体系结构以及传统监督学习中的方法，包括 L2 正则化，dropout，数据增强和批标准化等，能够提高泛化能力。

Dec, 2018

具有泛化能力的投影模拟

通过提出几个泛化的标准以及一种动态且自主的机制，本文介绍了如何在项目模拟智能代理中实现有意义的泛化，从而使代理可以学习和应对大量数据，配合一个基于非常简单的原则的基本的项目模拟模型和泛化机制，使我们能够全面分析代理的性能并展示它通过泛化的益处。

Apr, 2015

零样本强化学习中的泛化探索

研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Jun, 2023

具身化智能体是否会梦见像素化的绵羊？：利用语言引导的世界建模进行具身决策

使用大型语言模型来假设抽象世界模型从而提高强化学习代理的样本效率。在 Minecraft 物品制作中，DECKARD 代理通过 LLM-guided exploration 提出 AWM 并验证其有效性，从而实现了与现代方法相比一个数量级的提升。

Jan, 2023

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

网络随机化：增强学习中通用的简单技术

本文提出一种简单有效的技术，通过引入随机卷积神经网络打乱输入观测数据，在提高深度强化学习智能体的泛化能力方面取得了显著效果，并且通过 Monte Carlo 近似的推理方法来减少随机化引起的方差。我们在 2D CoinRun、3D DeepMind Lab 探索和 3D 机器人控制任务中展示了我们的方法的优越性，相比于其他正则化和数据增强方法明显更加优秀。

Oct, 2019