视觉元强化学习中泛化问题简述

ICMLJun, 2020

A Brief Look at Generalization in Visual Meta-Reinforcement Learning

Safa Alver, Doina Precup

TL;DR该论文评估了特别设计用于泛化的算法 —— 元强化学习算法的泛化性能，发现在挑战性任务上，这些算法仍然存在严重的过拟合和扩展性问题，强调需要开发既能泛化又能扩展的元强化学习算法。

Abstract

Due to the realization that deep reinforcement learning algorithms trained on high-dimensional tasks can strongly overfit to their training environments, there have been several studies that investigated the generalization performance of these algorithms. However, there has been no sim

deep reinforcement learning generalization performance meta-reinforcement learning sparse rewards procedural generation

发现论文，激发创造

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018

元强化学习的理论分析：泛化界限与收敛保证

这项研究探索了元强化学习（Meta RL），通过对定义泛化限制和确保收敛的深入研究。通过采用一种创新的理论框架，评估了 Meta RL 算法的有效性和性能。研究分析了影响 Meta RL 适应性的因素，揭示了算法设计与任务复杂性之间的关系。此外，我们根据已经证明的条件确保 Meta RL 策略收敛于解决方案。该研究全面了解了 Meta RL 算法在各种情况下的收敛行为，从而深入探究了其长期性能的驱动力，包括收敛和实时效率，提供了对这些算法的能力的透视。

May, 2024

深度强化学习中的泛化分析调查

通过利用深度神经网络解决高维状态或动作空间中的问题，强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因，并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析，并有助于构建具有改进泛化能力的鲁棒深度神经策略。

Jan, 2024

探究连续深度强化学习中的泛化能力

本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战，并评估了改进泛化性能的几种技术，总结了迄今为止最稳健的技术。

Feb, 2019

量化强化学习的泛化能力

本文研究了深度强化学习中的过拟合问题，并使用程序生成的环境来构建不同的训练和测试集，其中引入了一个名为 CoinRun 的新环境，用作强化学习中泛化的基准。使用 CoinRun，作者发现代理程序会对相当大的训练集过拟合，还展示了更深层次的卷积体系结构以及传统监督学习中的方法，包括 L2 正则化，dropout，数据增强和批标准化等，能够提高泛化能力。

Dec, 2018

元世界：多任务和元强化学习的基准和评估

本文提出了一个开源的模拟基准测试，包含 50 个不同的机器人操作任务，以评估 7 种最先进的元强化学习和多任务学习算法在这些任务上的表现，发现这些算法在解决多任务时仍存在挑战，为未来的研究提供了实验环境。

Oct, 2019

微调与元强化学习的有效性比较

本文研究使用 meta - 强化学习方法来完成多个视觉基准测试，在评估这些方法时，我们发现在不同的任务上，多任务预训练加微调的性能相当甚至更好，这与使用 meta-pretraining 和 meta test-time adaptation 的表现相当。因此我们建议在未来的 meta-RL 中加入更具挑战性的任务以及多任务预训练和微调作为更简单，强大的基线。

Jun, 2022

强化学习学习

本文提出了一种名为深度元强化学习的方法，该方法使用递归网络，在一个强化学习算法上进行训练，但其递归动态实现第二个、完全分离的强化学习过程，通过一系列七个验验证明了这种方法的潜在优势并提出了其可能引发的神经科学方面的重要影响。

Nov, 2016

利用学习目标改善元强化学习中的泛化能力

该论文介绍了一种新型元强化学习算法 MetaGenRL, 可以将多个复杂智能体的经验精炼为低复杂度的神经目标函数，并可以推广到不同于元训练的新环境中发挥作用，具有大幅增加采样效率的离线二阶梯度。

Oct, 2019

深度强化学习中过拟合的研究

本论文对深度强化学习的过拟合现象进行了系统研究，发现过拟合可能会以不同方式发生，并且常用的随机性技术不一定能有效检测或预防过拟合，因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。

Apr, 2018