应用内在动机技术于强化学习在难度较高的探索环境中的评估研究

May, 2022

应用内在动机技术于强化学习在难度较高的探索环境中的评估研究

An Evaluation Study of Intrinsic Motivation Techniques applied to Reinforcement Learning over Hard Exploration Environments

HTML

PDF

Alain Andres, Esther Villar-Rodriguez, Javier Del Ser

TL;DR本文旨在探讨强化学习中的探索问题以及先锋内在动机技术对不同设计因素的可变性和易感性的影响，强调这些设计方面的谨慎选择以及环境和任务的探索要求，以保证公正比较。

Abstract

In the last few years, the research activity around reinforcement learning tasks formulated over environments with sparse rewards has been especially notable. Among the numerous approaches proposed to deal with these hard →

发现论文，激发创造

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较14个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019

强化学习中内在动机调查

本文介绍了内在动机在深度强化学习中的作用，对不同内在动机的种类进行了归类并详细说明了各自的优点和局限性，并通过建立深度强化学习和内在动机模块相结合的框架，提出了建立更加完整的发展体系来应对大部分任务的方案。

Aug, 2019

如何协作训练异质强化学习代理，使其适应稀疏回报的环境？

本研究结合内在动机和传递学习的思想，探讨了基于行动者-评论家模型共享参数和结合内在动机信息的多智能体协同学习算法，在探索和学习效率上有一定提升，并强调正确调节外部和内部奖励间的重要性，以避免不良学习行为。

Feb, 2022

连续控制中的深度内在驱动探索

本文研究如何将内在动机与深度强化学习相结合，以用于连续系统的有向探索行为。我们基于动物激励系统的现有理论，提出了一种创新的、可扩展的有向探索策略，它受到价值函数误差的最大化的影响。大量实证研究表明，我们的框架可以扩展到更大、更多样化的状态空间，显著提高基线，明显优于非定向策略。

Oct, 2022

通过受限制优化提升内在奖励

该研究提出了一种名为EIPO的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在61个ATARI游戏中的测试，表现优异。

Nov, 2022

自我模仿学习中基于内在动机的探索改进方法研究

本文提出将内在动机与模仿学习相结合来优化探索行为，以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战，同时证明了在过程生成环境中，该方法可以取得优异的性能和更好的泛化能力，效率同等或更高。

Nov, 2022

先Go，后Post-Exploration：后探索在内在动机中的益处

该论文研究了强化学习领域中的一种新方法“Go-Explore”，通过后探索(post-exploration)的方式探明未知状态，通过试验在MiniGrid和Mujoco环境下得出结论，该方法具有通用性，易于实现，RL研究人员可考虑在intrinsically motivated goal exploration process中采用post-exploration。

Dec, 2022

基于模型的强化学习中的内在动机：简要综述

通过对智能体控制完成的问题广泛应用增强学习方法进行研究。基于发展心理学中的内在动机的概念，提出了一个系统性方法来确定内在动机的现有方法。该方法分为三类，分别为互补的内在奖励，探索策略和内在动机的目标。具有世界模型和内在动机的代理的架构被描述出来，以帮助提高学习能力，同时探讨了在这一领域开发新技术的潜力。

Jan, 2023

继承-前继内在探索

本篇论文提出了Successor-Predecessor Intrinsic Exploration (SPIE)算法，并将其应用于深度强化学习代理中，展示了在稀疏奖励和瓶颈状态下，相对于其它算法，SPIE能够产生更具效率和更符合生态的探索行为，并取得更强的实证效果。

May, 2023

利用预训练基础模型促进强化学习中的内在动机

本研究解决了强化学习中探索不足的问题，特别是在外部奖励稀少或缺失的环境中。通过利用预训练的基础模型，该研究提出了一种新颖的方法，强调发掘情节新颖性项在提高代理探索有效性方面的重要作用。实验结果表明，完整状态信息的内在模块显著提高了样本效率，并加速了学习过程，显示出基础模型的嵌入效果优于代理在训练期间构建的嵌入。

Oct, 2024