深度强化学习中的目标错泛化

ICMLMay, 2021

Goal Misgeneralization in Deep Reinforcement Learning

Lauro Langosco, Jack Koch, Lee Sharkey, Jacob Pfau, Laurent Orseau...

TL;DR本文研究强化学习中的一种广义泛化失败 —— 目标错误泛化。在此类失败中，强化学习代理在越出分布的情况下保留其能力，但追求错误的目标。我们阐明了能力和目标泛化之间的差别，提供了目标错误泛化的第一次经验演示，并对其原因进行了部分表征。

Abstract

We study goal misgeneralization, a type of out-of-distribution generalization failure in →

reinforcement learning generalization misgeneralization capability goal

发现论文，激发创造

利用 LLM 反馈进行强化学习以对抗目标误推

介绍一种使用大型语言模型（LLM）反馈来解决强化学习中的目标误概化问题的方法，通过在训练过程中利用 LLMs 分析 RL 代理的策略并识别潜在的故障场景，进而部署 RL 代理并通过 LLM 偏好和反馈学习奖励模型，用这个基于 LLM 信息的奖励模型进一步训练 RL 代理，在迷宫导航任务中应用我们的方法，显示在目标广义化方面有明显改善，特别是当真实目标和代理目标在某种程度上可区分且行为偏差显著的情况下，这项研究展示了 LLM 如何有效监督 RL 代理，在强化学习中通过使用 LLMs 提供可扩展的监督和宝贵的洞察来增强目标导向学习。

Jan, 2024

深度强化学习的泛化评估

通过引入基准测试和实验协议，我们对深度强化学习中不同泛化方案的优点进行了系统评估，并发现与特定针对泛化的专门方案相比，“vanilla” 深度 RL 算法的泛化能力更强。

Oct, 2018

目标错误泛化：为什么正确的规范并不足以达成正确的目标

该研究主要讨论 AI 系统可能在追求不期而至的目标时出现的问题，如规定游戏和目标误化，并提出几个研究方向以减少这些问题带来的灾难风险。

Oct, 2022

深度强化学习中的泛化度量和特征描述

本篇论文重新审视了深度强化学习中表示学习的概念，并提出了几种定义，并在一个通用的测试任务上使用这些定义评估了算法的性能，结果表明代理在一些未被探索的状态下决策结果较差，这暗示我们需要更多的实验和分析，以支持表示学习的相关权利主张。

Dec, 2018

深度强化学习中过拟合的研究

本论文对深度强化学习的过拟合现象进行了系统研究，发现过拟合可能会以不同方式发生，并且常用的随机性技术不一定能有效检测或预防过拟合，因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。

Apr, 2018

强化学习中的颜色对形状目标误泛化：一项案例研究

探讨了 Di Langosco 等人在 Procgen Maze 环境中最初展示出的颜色与形状目标错误泛化，即在一个模棱两可的选择中，代理人似乎更喜欢基于颜色而不是形状的泛化。训练了 1000 多个代理并在超过 1000 万个回合中对其进行评估后，我们得出结论，该行为可以归因于代理通过特定的颜色通道来学习检测目标物体，而这个选择是随意的。此外，我们展示了由于欠指定性，在除了使用不同的随机种子进行训练运行之外，重新训练代理会导致偏好的改变。最后，我们通过仅仅使用训练的随机种子，展示了在培训外的行为中存在离群值。

Dec, 2023

探究连续深度强化学习中的泛化能力

本文通过深度增强学习模型下的不确定性源和基准测试来研究面临的泛化挑战，并评估了改进泛化性能的几种技术，总结了迄今为止最稳健的技术。

Feb, 2019

不良习惯：强化学习中的政策混淆和轨迹外泛化

在本文中，我们提供了对强化学习代理人的策略混淆现象的数学描述，并通过一系列示例展示了它何时发生以及如何发生。

Jun, 2023

深度强化学习中的泛化分析调查

通过利用深度神经网络解决高维状态或动作空间中的问题，强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因，并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析，并有助于构建具有改进泛化能力的鲁棒深度神经策略。

Jan, 2024

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016