做有意义的事情：以行动实用性为本的内在动机

ICLRMay, 2021

做有意义的事情：以行动实用性为本的内在动机

Don't Do What Doesn't Matter: Intrinsic Motivation with Action Usefulness

Mathieu Seurin, Florian Strub, Philippe Preux, Olivier Pietquin

TL;DR本文提出了一种名为 DoWhaM 的新探索方法，将重点从状态新颖性转移到具有相关动作的状态，以减少样本复杂度并解决强化学习中的探索问题。

Abstract

Sparse rewards are double-edged training signals in reinforcement learning: easy to design but hard to optimize. intrinsic motivation guidances have thus been developed toward alleviating the resulting

reinforcement learning exploration problem intrinsic motivation don't do what doesn't matter sample complexity

发现论文，激发创造

RIDE: 面向程序生成环境的奖励驱动探索

本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。

Feb, 2020

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

寻求熵：从内在动机到占据行动状态路径空间的复杂行为

本研究发现，追求长期探索的智能体在没有外部奖励的情况下也能够表现出复杂的行为。研究表明，动作状态路径熵是唯一能够实现期望未来行为状态路径覆盖的一种量度。通过离散和连续状态的任务，我们展示了跳舞、捉迷藏和基本形式的利他行为可以自然而然地从熵追求中得出。如此基于内在动机的智能体能够客观地确定什么状态构成奖励，并利用它们最大化行为状态路径熵

May, 2022

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

应用内在动机技术于强化学习在难度较高的探索环境中的评估研究

本文旨在探讨强化学习中的探索问题以及先锋内在动机技术对不同设计因素的可变性和易感性的影响，强调这些设计方面的谨慎选择以及环境和任务的探索要求，以保证公正比较。

May, 2022

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

自我模仿学习中基于内在动机的探索改进方法研究

本文提出将内在动机与模仿学习相结合来优化探索行为，以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战，同时证明了在过程生成环境中，该方法可以取得优异的性能和更好的泛化能力，效率同等或更高。

Nov, 2022

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

促进协同行为的内在动机

研究了内在动机作为勘探偏差在稀疏回报的协同任务的强化学习中的作用，提出了一种将代理器奖励于不能通过每个代理器单独的效应预测的行为的方法，并在机器人双臂操作和多代理者运动任务中验证了其有效性和效率。

Feb, 2020