通过意外记忆激发内在动机

Aug, 2023

Intrinsic Motivation via Surprise Memory

Hung Le, Kien Do, Dung Nguyen, Svetha Venkatesh

TL;DR我们提出了一种新的计算模型，用于强化学习中的内在奖励，解决了现有基于惊喜驱动的探索的局限性。奖励是惊喜的新颖性，而不是惊喜的规范。我们通过内存网络的检索错误来估计惊喜的新颖性，其中内存存储和重构惊喜。我们的惊喜记忆（Surprise Memory，SM）增加了基于惊喜的内在动机的能力，保持了对激动人心的探索的兴趣，同时减少了对不可预测或嘈杂观察的不必要的吸引力。我们的实验表明，结合各种惊喜预测器的 SM 表现出高效的探索行为，并显著提升了稀疏奖励环境中的最终性能，包括嘈杂的电视、导航和具有挑战性的 Atari 游戏。

Abstract

We present a new computing model for intrinsic rewards in reinforcement learning that addresses the limitations of existing surprise-driven explorations. The reward is the novelty of the surprise rather than the

computing model intrinsic rewards reinforcement learning surprise-driven explorations surprise novelty

发现论文，激发创造

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

潜在贝叶斯惊喜驱动下的好奇心驱动探索

利用人工好奇心提高强化学习系统的探索能力，本文提出了一种利用贝叶斯惊奇度作为衡量模型参数先验和后验之间差异的方法，将其应用于代理模型的潜在空间中，大大降低计算成本，研究表明其对连续任务的环境探索和视频游戏分数的影响要好于当前最先进技术，同时具有对抗随机性环境的鲁棒性。

Apr, 2021

强化学习中基于时间不一致性的自监督探索

本文提出一种新的内在奖励方法，利用自监督预测模型和核范数来评估历史知识对当前观察的差异，以此解决稀疏奖励的强化学习问题，并在多个基准环境下展示其优越性。

Aug, 2022

自监督利用探索

本研究提出了一种基于内在动机的算法，采用自监督学习中的蒸馏误差作为新奇检测器，通过经验表明在十种难以探索的环境中，相对于基准模型，该方法能够更快地增长和获得更高的外部奖励，从而提高了在非常稀疏的奖励环境中的探索性能。

Feb, 2023

趣味驱动学习的大规模研究

本文通过大规模实验，研究了无外部奖励下的” 好奇心驱动学习 “ 与外部奖励的比对，研究了用于计算预测误差的不同特征空间，并探究了在随机环境中使用基于预测的奖励的局限性。

Aug, 2018

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

自监督预测驱动下的好奇心驱动探索

通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号，提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力，具有在不同领域中推广的潜力。

May, 2017

以混合目标为驱动的好奇心多智能体探索

本文提出了一种基于好奇心驱动的多智能体共探算法，旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明，这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。

Oct, 2022

神经启发的碎片化和回忆：解决好奇心中的灾难性遗忘

在大型环境中，深度强化学习方法在多个任务上表现出色，但在具有稀疏奖励的困难探索任务上仍然面临困难。本研究发现基于预测的内在奖励方法可能出现灾难性遗忘，并提出了一种名为 FARCuriosity 的新方法，通过碎片化和回溯来减轻灾难性遗忘问题，提升了在具有不同环境的游戏中的性能表现。

Oct, 2023

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018