用内在的恐惧解决强化学习的西西弗斯诅咒
在大型环境中,深度强化学习方法在多个任务上表现出色,但在具有稀疏奖励的困难探索任务上仍然面临困难。本研究发现基于预测的内在奖励方法可能出现灾难性遗忘,并提出了一种名为 FARCuriosity 的新方法,通过碎片化和回溯来减轻灾难性遗忘问题,提升了在具有不同环境的游戏中的性能表现。
Oct, 2023
我们提出了一种新的强化学习 (RL) 算法,通过得到一种悲观策略来保护代理对真实状态的不确定性,并结合置信状态推理和基于扩散的状态净化来降低不确定性,实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。
Mar, 2024
本论文提出一种基于条件互信息的探索奖励方法 (DEIR),实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。
Apr, 2023
本文提出了一种基于 Intrinsic motivation 的强化学习方法,其奖励函数被定义为智能体状态与周围状态之间的互信息,实现了比以前的方法更好的效果,包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。
Mar, 2021
在多智能体强化学习领域,内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法,以应对神经网络统计近似器的有限表达能力所带来的挑战,并有效控制多次重复访问任务空间的现象,在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能,尤其是在稀疏奖励设置下。
Aug, 2023
提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法,该方法将敌对训练与零和极小优化相结合,通过训练一个智能体,使其能够在真实系统上的杂乱因素和不确定性下操作,并在多种环境中进行了验证。
Mar, 2017
通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入,本文在简单的 Catcher 游戏上取得了高水平表现,显著超越了 CNN-AIRL 基线,但在 Enduro Atari 赛车游戏中表现不佳,这彰显了需要进一步研究的必要性。
Oct, 2018
通过引入一种新的奖励学习模块,可通过生成模型生成内在奖励信号。我们的生成功能可以更好地执行前向状态转换和后向动作编码,提高模块在环境中的动力学建模能力,并为模仿代理提供了模仿者的内在意图和更好的探索能力。经验证明,我们的模型在多个 Atari 游戏中的表现优于现有的 IRL 方法,即使只有一次演示,性能也是演示的 5 倍。
Jun, 2020
该研究提出了一种名为 EIPO 的优化策略,通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系,以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试,表现优异。
Nov, 2022