MIMEx：基于掩码输入建模的内在奖励

May, 2023

MIMEx：基于掩码输入建模的内在奖励

MIMEx: Intrinsic Rewards from Masked Input Modeling

Toru Lin, Allan Jabri

TL;DR提出了一种用于探索的通用框架 Masked Input Modeling for Exploration (MIMEx)，它能够通过灵活调整掩码分布来控制条件预测任务的难度，并在一系列挑战性的稀疏奖励视觉运动任务中取得了优异的结果。

Abstract

Exploring in environments with high-dimensional observations is hard. One promising approach for exploration is to use intrinsic rewards, which often boils down to estimating "novelty" of states, transitions, or

exploration intrinsic rewards conditional prediction masked autoencoding mimex

发现论文，激发创造

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

生成内在优化：具备模型学习的内在控制

采用变分方法联合学习估计互信息和动力学模型的必要数量，提供了一种结合不同形式感兴趣结果的广泛框架，将内部激励与奖励最大化相结合，以增强样本效率并将环境的不确定性纳入决策中。

Oct, 2023

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

高效探索的隐式生成模型

本文介绍了一种基于模型不确定性估计的机制，通过引入基于贝叶斯不确定性的内在奖励来提高强化学习中的探索效率，并将隐式的生成建模方法用于训练。实验结果表明，与其他探索方法相比，该算法在提高数据效率方面表现出色。

Nov, 2019

掩模图像建模与去噪对比

本文提出了一种简单的自监督预训练框架 ConMIM，使用对比学习的方法在图像补丁级别上进行去噪自编码，通过不同的异构设计来提高网络的预训练性能，从而在多个视觉任务上实现了竞争性结果，如 ImageNet 分类，语义分割，目标检测和实例分割等。

May, 2022

通过意外记忆激发内在动机

我们提出了一种新的计算模型，用于强化学习中的内在奖励，解决了现有基于惊喜驱动的探索的局限性。奖励是惊喜的新颖性，而不是惊喜的规范。我们通过内存网络的检索错误来估计惊喜的新颖性，其中内存存储和重构惊喜。我们的惊喜记忆（Surprise Memory，SM）增加了基于惊喜的内在动机的能力，保持了对激动人心的探索的兴趣，同时减少了对不可预测或嘈杂观察的不必要的吸引力。我们的实验表明，结合各种惊喜预测器的 SM 表现出高效的探索行为，并显著提升了稀疏奖励环境中的最终性能，包括嘈杂的电视、导航和具有挑战性的 Atari 游戏。

Aug, 2023

互信息状态内在控制

本文提出了一种基于 Intrinsic motivation 的强化学习方法，其奖励函数被定义为智能体状态与周围状态之间的互信息，实现了比以前的方法更好的效果，包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。

Mar, 2021

探索性示例模型用于深度强化学习

本文提出了一种基于判别式训练范例模型的探索性新颖性检测算法，该算法可以应用于稀疏回报问题的深度强化学习任务，此方法在 vizDoom 基准测试中取得了最先进的结果。

Mar, 2017

基于图像增强的动量记忆内在奖励在稀疏奖励视觉场景中的应用

提出了一种新颖的框架 IAMMIR，将自我监督表征学习和内在动机相结合来解决视觉导航任务中只接受图像和稀疏奖励条件下智能体难以解决的问题。该方法在 Vizdoom 中进行评估，实现了样本效率的最佳表现，并且达到了 100% 的成功率，至少比现有方法快 2 倍。

May, 2022