用内在的恐惧解决强化学习的西西弗斯诅咒

Nov, 2016

用内在的恐惧解决强化学习的西西弗斯诅咒

Combating Reinforcement Learning's Sisyphean Curse with Intrinsic Fear

Zachary C. Lipton, Kamyar Azizzadenesheli, Abhishek Kumar, Lihong Li, Jianfeng Gao...

TL;DR该研究通过学习奖励塑造技术，引入内在的恐惧机制，保护深度强化学习代理人避免周期性的灾难状态，证明了其鲁棒性和学习速度优势，并在实验中成功解决了多种问题。

Abstract

Many practical environments contain catastrophic states that an optimal agent would visit infrequently or never. Even on toy problems, Deep Reinforcement Learning (DRL) agents tend to periodically revisit these states upon forgetting their existence under a new policy. We introduce

deep reinforcement learning intrinsic fear reward shaping catastrophic states q-learning objective

发现论文，激发创造

神经启发的碎片化和回忆：解决好奇心中的灾难性遗忘

在大型环境中，深度强化学习方法在多个任务上表现出色，但在具有稀疏奖励的困难探索任务上仍然面临困难。本研究发现基于预测的内在奖励方法可能出现灾难性遗忘，并提出了一种名为 FARCuriosity 的新方法，通过碎片化和回溯来减轻灾难性遗忘问题，提升了在具有不同环境的游戏中的性能表现。

Oct, 2023

富有信念的悲观 Q 学习用于对抗敌对状态扰动

我们提出了一种新的强化学习 (RL) 算法，通过得到一种悲观策略来保护代理对真实状态的不确定性，并结合置信状态推理和基于扩散的状态净化来降低不确定性，实验证明我们的方法在面对强攻击时具有出色的性能并且与基于正则化方法具有相当的训练开销。

Mar, 2024

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

互信息状态内在控制

本文提出了一种基于 Intrinsic motivation 的强化学习方法，其奖励函数被定义为智能体状态与周围状态之间的互信息，实现了比以前的方法更好的效果，包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。

Mar, 2021

逆强化学习中悲观主义的优点

通过使用离线 RL 算法作为 IRL 过程的一部分，我们能够更有效地找到与专家表现相匹配的策略。

Feb, 2024

多智能体强化学习中避免重复探索

在多智能体强化学习领域，内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法，以应对神经网络统计近似器的有限表达能力所带来的挑战，并有效控制多次重复访问任务空间的现象，在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能，尤其是在稀疏奖励设置下。

Aug, 2023

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

通过生成模型的内在奖励驱动的模仿学习

通过引入一种新的奖励学习模块，可通过生成模型生成内在奖励信号。我们的生成功能可以更好地执行前向状态转换和后向动作编码，提高模块在环境中的动力学建模能力，并为模仿代理提供了模仿者的内在意图和更好的探索能力。经验证明，我们的模型在多个 Atari 游戏中的表现优于现有的 IRL 方法，即使只有一次演示，性能也是演示的 5 倍。

Jun, 2020

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022