RLeXplore: 加速内在动机驱动的强化学习研究

May, 2024

RLeXplore: 加速内在动机驱动的强化学习研究

RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning

Mingqi Yuan, Roger Creus Castanyer, Bo Li, Xin Jin, Glen Berseth...

TL;DR在复杂环境中，由于设计和注释的高人力成本，外部奖励通常无法满足需求，这强调了内在奖励的必要性，通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore，提供了八种先进内在奖励算法的可靠实现，并通过深入研究确定了关键的实现细节和合理的标准实践，填补了相关领域的研究空白。

Abstract

extrinsic rewards can effectively guide reinforcement learning (RL) agents in specific tasks. However, extrinsic rewards frequently fall s

extrinsic rewards intrinsic rewards reinforcement learning framework implementation details

发现论文，激发创造

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

多智能体强化学习中基于内在奖励的协调探索

该论文介绍了一种为多智能体设计内在奖励的框架，以促进协调探索，然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。

May, 2019

应用内在动机技术于强化学习在难度较高的探索环境中的评估研究

本文旨在探讨强化学习中的探索问题以及先锋内在动机技术对不同设计因素的可变性和易感性的影响，强调这些设计方面的谨慎选择以及环境和任务的探索要求，以保证公正比较。

May, 2022

通过学习动机一致的内在回报自动设计奖励

本文提出了一种基于动机的奖励设计方法，自动生成目标一致的内在奖励，以最大程度地增大期望的累积外在奖励，该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。

Jul, 2022

利用语言抽象提高内在探索能力

本文研究探讨使用自然语言作为一种通用媒介以提高强化学习领域中稀疏奖励的训练效果，通过与 AMIGo 和 NovelD 等竞争性内部探索基线进行直接扩展和比较，本研究探究语言能否优化现有的探索方法，其与非语言形式相比在 MiniGrid 和 MiniHack 环境套件的 13 项挑战任务中表现更好（提高了 47-85%）。

Feb, 2022

自我模仿学习中基于内在动机的探索改进方法研究

本文提出将内在动机与模仿学习相结合来优化探索行为，以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战，同时证明了在过程生成环境中，该方法可以取得优异的性能和更好的泛化能力，效率同等或更高。

Nov, 2022

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019

RIDE: 面向程序生成环境的奖励驱动探索

本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。

Feb, 2020

基于模型的强化学习中的内在动机：简要综述

通过对智能体控制完成的问题广泛应用增强学习方法进行研究。基于发展心理学中的内在动机的概念，提出了一个系统性方法来确定内在动机的现有方法。该方法分为三类，分别为互补的内在奖励，探索策略和内在动机的目标。具有世界模型和内在动机的代理的架构被描述出来，以帮助提高学习能力，同时探讨了在这一领域开发新技术的潜力。

Jan, 2023

学习策略梯度方法的内部奖励

本文中，研究了在序列决策任务中，优化奖励函数对于强化学习的性能具有重要意义，提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法，并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。

Apr, 2018