自监督利用探索

Feb, 2023

Exploration by self-supervised exploitation

Matej Pecháč, Michal Chovanec, Igor Farkaš

TL;DR本研究提出了一种基于内在动机的算法，采用自监督学习中的蒸馏误差作为新奇检测器，通过经验表明在十种难以探索的环境中，相对于基准模型，该方法能够更快地增长和获得更高的外部奖励，从而提高了在非常稀疏的奖励环境中的探索性能。

Abstract

reinforcement learning can solve decision-making problems and train an agent to behave in an environment according to a predesigned reward function. However, such an approach becomes very problematic if the reward is too sparse and the agent does not come across the reward during the e

reinforcement learning intrinsic motivation novelty detection self-supervised learning sparse rewards

发现论文，激发创造

自我模仿学习中基于内在动机的探索改进方法研究

本文提出将内在动机与模仿学习相结合来优化探索行为，以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战，同时证明了在过程生成环境中，该方法可以取得优异的性能和更好的泛化能力，效率同等或更高。

Nov, 2022

强化学习中基于时间不一致性的自监督探索

本文提出一种新的内在奖励方法，利用自监督预测模型和核范数来评估历史知识对当前观察的差异，以此解决稀疏奖励的强化学习问题，并在多个基准环境下展示其优越性。

Aug, 2022

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

随机网络提炼的探索

通过引入基于神经网络的探索奖励机制并将内在和外在奖励进行灵活结合，该研究在探索性 Atari 游戏中显著提高了性能，特别是在 Montezuma 的复仇游戏中实现了优于平均人类水平的表现，并有时完成第一级别。

Oct, 2018

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

通过知识蒸馏和自主规则发现实现高效的开放世界强化学习

深度强化学习的关键问题包括忘记和样本效率低下，该研究通过发现并利用空间信息推导任务特定规则，提出了一个通用框架来帮助智能体在新环境中自主学习并增加适应速度。该框架的实现之一是基于规则驱动的深度 Q 学习代理，它在实验中表现出明显更强的抵抗新鲜事物和适应新情况的能力。

Nov, 2023

应用内在动机技术于强化学习在难度较高的探索环境中的评估研究

本文旨在探讨强化学习中的探索问题以及先锋内在动机技术对不同设计因素的可变性和易感性的影响，强调这些设计方面的谨慎选择以及环境和任务的探索要求，以保证公正比较。

May, 2022

强化学习中的稀疏奖励问题处理

本研究探索和对比了现有的强化学习方法，以避免仅提供稀少回报的环境的难度，并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案，提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。

Oct, 2019