深度强化学习中的目标错泛化
介绍一种使用大型语言模型(LLM)反馈来解决强化学习中的目标误概化问题的方法,通过在训练过程中利用 LLMs 分析 RL 代理的策略并识别潜在的故障场景,进而部署 RL 代理并通过 LLM 偏好和反馈学习奖励模型,用这个基于 LLM 信息的奖励模型进一步训练 RL 代理,在迷宫导航任务中应用我们的方法,显示在目标广义化方面有明显改善,特别是当真实目标和代理目标在某种程度上可区分且行为偏差显著的情况下,这项研究展示了 LLM 如何有效监督 RL 代理,在强化学习中通过使用 LLMs 提供可扩展的监督和宝贵的洞察来增强目标导向学习。
Jan, 2024
通过引入基准测试和实验协议,我们对深度强化学习中不同泛化方案的优点进行了系统评估,并发现与特定针对泛化的专门方案相比,“vanilla” 深度 RL 算法的泛化能力更强。
Oct, 2018
该研究主要讨论 AI 系统可能在追求不期而至的目标时出现的问题,如规定游戏和目标误化,并提出几个研究方向以减少这些问题带来的灾难风险。
Oct, 2022
本篇论文重新审视了深度强化学习中表示学习的概念,并提出了几种定义,并在一个通用的测试任务上使用这些定义评估了算法的性能,结果表明代理在一些未被探索的状态下决策结果较差,这暗示我们需要更多的实验和分析,以支持表示学习的相关权利主张。
Dec, 2018
本论文对深度强化学习的过拟合现象进行了系统研究,发现过拟合可能会以不同方式发生,并且常用的随机性技术不一定能有效检测或预防过拟合,因此需要更加严谨的评估协议并研究感性偏差对泛化行为的影响。
Apr, 2018
探讨了 Di Langosco 等人在 Procgen Maze 环境中最初展示出的颜色与形状目标错误泛化,即在一个模棱两可的选择中,代理人似乎更喜欢基于颜色而不是形状的泛化。训练了 1000 多个代理并在超过 1000 万个回合中对其进行评估后,我们得出结论,该行为可以归因于代理通过特定的颜色通道来学习检测目标物体,而这个选择是随意的。此外,我们展示了由于欠指定性,在除了使用不同的随机种子进行训练运行之外,重新训练代理会导致偏好的改变。最后,我们通过仅仅使用训练的随机种子,展示了在培训外的行为中存在离群值。
Dec, 2023
通过利用深度神经网络解决高维状态或动作空间中的问题,强化学习研究在许多领域获得了显著的成功和关注。本文将概述深度强化学习策略遇到过拟合问题从而限制其鲁棒性和泛化能力的基本原因,并形式化和统一不同的解决方法来增加泛化能力并克服状态 - 动作值函数中的过拟合问题。我们相信我们的研究可以为当前深度强化学习的进展提供一个紧凑的系统统一分析,并有助于构建具有改进泛化能力的鲁棒深度神经策略。
Jan, 2024
本文研究了如何在有限的标注数据下,通过半监督强化学习及反强化学习等方法,使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果,并评估了该方法在基于图像的控制任务上的表现。
Dec, 2016