强化学习中的颜色对形状目标误泛化：一项案例研究

Dec, 2023

强化学习中的颜色对形状目标误泛化：一项案例研究

Colour versus Shape Goal Misgeneralization in Reinforcement Learning: A Case Study

Karolis Ramanauskas, Özgür Şimşek

TL;DR探讨了 Di Langosco 等人在 Procgen Maze 环境中最初展示出的颜色与形状目标错误泛化，即在一个模棱两可的选择中，代理人似乎更喜欢基于颜色而不是形状的泛化。训练了 1000 多个代理并在超过 1000 万个回合中对其进行评估后，我们得出结论，该行为可以归因于代理通过特定的颜色通道来学习检测目标物体，而这个选择是随意的。此外，我们展示了由于欠指定性，在除了使用不同的随机种子进行训练运行之外，重新训练代理会导致偏好的改变。最后，我们通过仅仅使用训练的随机种子，展示了在培训外的行为中存在离群值。

Abstract

We explore colour versus shape goal misgeneralization originally demonstrated by Di Langosco et al. (2022) in the Procgen Maze environment

colour shape misgeneralization agents out-of-distribution behaviour

发现论文，激发创造

深度强化学习中的目标错泛化

本文研究强化学习中的一种广义泛化失败 —— 目标错误泛化。在此类失败中，强化学习代理在越出分布的情况下保留其能力，但追求错误的目标。我们阐明了能力和目标泛化之间的差别，提供了目标错误泛化的第一次经验演示，并对其原因进行了部分表征。

May, 2021

零样本强化学习中的泛化探索

研究如何在强化学习的零样本泛化中，通过训练一个能够有效探索领域的行为策略，来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法，在多个 ProcGen 挑战任务中实现了良好的实验效果，尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。

Jun, 2023

利用 LLM 反馈进行强化学习以对抗目标误推

介绍一种使用大型语言模型（LLM）反馈来解决强化学习中的目标误概化问题的方法，通过在训练过程中利用 LLMs 分析 RL 代理的策略并识别潜在的故障场景，进而部署 RL 代理并通过 LLM 偏好和反馈学习奖励模型，用这个基于 LLM 信息的奖励模型进一步训练 RL 代理，在迷宫导航任务中应用我们的方法，显示在目标广义化方面有明显改善，特别是当真实目标和代理目标在某种程度上可区分且行为偏差显著的情况下，这项研究展示了 LLM 如何有效监督 RL 代理，在强化学习中通过使用 LLMs 提供可扩展的监督和宝贵的洞察来增强目标导向学习。

Jan, 2024

通过修剪原型目标扩展目标导向探索的规模

本研究基于强化学习，通过在人工设计产生的广泛目标空间中寻找可控、可达、新颖和相关目标的自主发现过程，弥补探索广域领域中新奇性和涵盖性行为不足的问题，并在三种具有挑战性的环境中证明了目标导向的探索的有效性。

Feb, 2023

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

深度集合用于 RL 中的泛化

本文研究了在自然语言引导下的强化学习中，将以对象为中心的表现编码到奖励函数和策略架构中的想法。通过使用受深度集合启发的对象排列不变网络和门控注意机制的组合，我们在二维过程生成的世界中显示出这些结构对于分布外的目标具有强大的泛化能力，同时我们研究了在测试时对象数量的泛化和将以对象为中心的架构扩展到涉及关系推理的目标。

Mar, 2020

使用强化学习进行视觉概念的组合学习

深度强化学习代理需要数百万次训练以解决与指令相关的导航任务，对于其泛化到新颖指令组合的能力还不清楚。然而，有趣的是，儿童能够将基于语言的指令分解并导航到所指对象，即使他们以前没有见过这种查询的组合。因此，我们创建了三个 3D 环境来研究深度强化学习代理如何学习和组合基于颜色和形状的组合指令来解决空间导航任务中的新颖组合。首先，我们探索代理是否能进行组合学习，并且它们是否可以利用冻结的文本编码器（例如 CLIP，BERT）在较少的训练次数内学习词组合。接下来，我们证明当代理在形状或颜色概念上预训练时，它们解决未见组合指令所需的训练次数减少了 20 倍。最后，我们展示了在概念和组合学习上进行预训练的代理在评估时的零样本状态下，对新的颜色 - 形状 1 - 形状 2 视觉对象组合获得了显著更高的奖励。总体而言，我们的结果凸显了通过强化学习增强代理组合词语的能力以及其对新组合的零样本泛化能力所需的基础。

Sep, 2023

理解和控制一个迷宫求解策略网络

通过研究预训练的强化学习策略，我们发现该网络追求多个与上下文相关的目标，并确定了网络中对应于其中一个目标的电路。我们进一步通过修改这些电路部分控制策略，从而揭示了该网络包含冗余、分布式和可重新设定目标表示的特性，从而阐明了训练策略网络中目标方向的本质。

Oct, 2023

视觉动作学习和规划的少样本目标推断

本研究提出一种基于 few-shot 和 meta 学习的方法，以实现在不确定环境下，通过从少量任务成功状态中学习目标来实现机器人的自主学习和行动。

Sep, 2018

D-Shape: 基于目标条件的演示形状强化学习

本文介绍一种新的结合模仿学习和强化学习的方法 D-Shape，它使用奖励塑造和目标条件强化学习来解决模仿学习所带来的与强化学习目标冲突的问题，从而实现在子优示范时学习，但同时还保持了相对于任务奖励的最优策略。我们在稀疏奖励的网格世界领域进行了实验，并证明了 D-Shape 在提高样本效率和处理子优示范的同时始终能够收敛到最优策略。

Oct, 2022