自由游戏的规律性作为内在奖励

Dec, 2023

Regularity as Intrinsic Reward for Free Play

Cansu Sancaktar, Justus Piater, Georg Martius

TL;DR通过引入规则性作为一种新颖的奖励信号，我们在内在驱动的强化学习中提出了规则性作为主题。受到儿童发展的启示，我们假设追求结构和秩序有助于引导探索向不受基于不确定性的内在奖励青睐的任务子空间发展。我们提出的规则性作为内在奖励的广义公式，在模型驱动的强化学习中对其进行操作。我们在一个合成环境中展示了追求规则性目标可以产生的各种结构化模式。在一个多目标机器人操作环境中，我们还展示了我们方法的优势。我们将规则性作为自由游戏的一部分，并将其作为与模型的认识不确定性一起的内在奖励来补充。这样做，我们观察到在自由游戏过程中出现了塔和其他规则结构的自主构建，在装配任务的零 - shot 下游任务性能上获得了显著的改进。

Abstract

We propose regularity as a novel reward signal for intrinsically-motivated reinforcement learning. Taking inspiration from child development, we postulate that striving for →

regularity intrinsic reward reinforcement learning exploration structure

发现论文，激发创造

使用逆强化学习中的结构图案进行奖励学习

本文研究了当前 IRL 方法在长期和复杂的顺序任务中学习代理奖励函数的无效性，并提出了一种新的 IRL 方法 SMIRL，该方法将任务结构化为有限状态自动机，然后使用结构性动机来解决 IRL 问题。通过离散和高维度连续环境的测试实验，我们证明了该方法的有效性和高效性，并表明其在具有组合奖励函数的任务中仍然表现良好。

Sep, 2022

深度强化学习中的探索自主内在奖励塑形自动化

AIRS 是一种用于强化学习的自动内在奖励塑造方法，通过实时估计的任务返回值来选择适当的奖励函数，提供可靠的探索激励并消除偏见目标问题，同时基于内在奖励工具包的搭建，实现了各种内在奖励方法的高效和可靠实施，通过在 Procgen 游戏和 DeepMind 控制套件中进行的广泛模拟，证明了 AIRS 可以优于基准方案，并以简单的架构实现了优异的性能。

Jan, 2023

强化学习中基于时间不一致性的自监督探索

本文提出一种新的内在奖励方法，利用自监督预测模型和核范数来评估历史知识对当前观察的差异，以此解决稀疏奖励的强化学习问题，并在多个基准环境下展示其优越性。

Aug, 2022

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

本论文提出一种基于条件互信息的探索奖励方法 (DEIR)，实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。

Apr, 2023

RLeXplore: 加速内在动机驱动的强化学习研究

在复杂环境中，由于设计和注释的高人力成本，外部奖励通常无法满足需求，这强调了内在奖励的必要性，通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore，提供了八种先进内在奖励算法的可靠实现，并通过深入研究确定了关键的实现细节和合理的标准实践，填补了相关领域的研究空白。

May, 2024

趣味驱动学习的大规模研究

本文通过大规模实验，研究了无外部奖励下的” 好奇心驱动学习 “ 与外部奖励的比对，研究了用于计算预测误差的不同特征空间，并探究了在随机环境中使用基于预测的奖励的局限性。

Aug, 2018

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

互信息状态内在控制

本文提出了一种基于 Intrinsic motivation 的强化学习方法，其奖励函数被定义为智能体状态与周围状态之间的互信息，实现了比以前的方法更好的效果，包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。

Mar, 2021

RIDE: 面向程序生成环境的奖励驱动探索

本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。

Feb, 2020