一种基于内在动机的学习方法，用于学习高度探索和快速运动策略

AAAIJul, 2019

一种基于内在动机的学习方法，用于学习高度探索和快速运动策略

An Intrinsically-Motivated Approach for Learning Highly Exploring and Fast Mixing Policies

Mirco Mutti, Marcello Restelli

TL;DR本文提出一种新的代理与环境相互作用下的探索策略，旨在最小化步骤数、最大化稳态分布熵的下界，并引入三个下界分别对应三个最优化问题，再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。

Abstract

What is a good exploration strategy for an agent that interacts with an environment in the absence of external rewards? Ideally, we would like to get a policy driving towards a uniform state-action visitation (highly exploring) in a minimum number of steps (fast mixing), in order to ea

exploration strategy agent-environment interaction policy optimization entropy maximization model-based reinforcement learning

发现论文，激发创造

强化学习中纯探索的快速主动学习

研究表明，对于纯探索目标的奖励免费探索，按比例缩放的奖励可以带来更快的学习率，从而提高了对于时限的依赖性的已知上限。此外，在最佳策略识别设置中，改进的停止时间分析可以将样本复杂度提高一倍。

Jul, 2020

通过最大化 Rényi 熵进行无奖励强化学习框架探索

通过最大化 Renyi 熵的方法，提出了一种适用于元 RL 的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

可证明高效的最大熵探索

该研究采用条件梯度法，利用近似 MDP 求解器提供高效算法，解决了在没有奖励信号的情况下对一类内在目标进行优化的问题。

Dec, 2018

永不放弃：学习有向探索策略

本篇论文提出了一种基于强化学习和 UVFA 框架的方法，通过学习一系列定向的探索策略来解决难以探索的游戏，并使用轨迹存储和 kNN 算法来构造一种内在奖励信号，以影响策略的学习方式，并在 Atari-57 游戏套件中得到了很好的表现结果。

Feb, 2020

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

学习自我模仿多样化策略

本文提出了一种基于自我模仿学习的深度强化学习算法，旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率，并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性，并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。

May, 2018

强化学习的无奖励探索

该论文提出了一个新的 “无奖励强化学习” 框架，通过在探索阶段从 MDP 采集轨迹来找到探索策略，并使用黑盒近似规划器计算接近最优的策略。

Feb, 2020

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

May, 2024

寻求熵：从内在动机到占据行动状态路径空间的复杂行为

本研究发现，追求长期探索的智能体在没有外部奖励的情况下也能够表现出复杂的行为。研究表明，动作状态路径熵是唯一能够实现期望未来行为状态路径覆盖的一种量度。通过离散和连续状态的任务，我们展示了跳舞、捉迷藏和基本形式的利他行为可以自然而然地从熵追求中得出。如此基于内在动机的智能体能够客观地确定什么状态构成奖励，并利用它们最大化行为状态路径熵

May, 2022