应用内在动机技术于强化学习在难度较高的探索环境中的评估研究
本文提出将内在动机与模仿学习相结合来优化探索行为,以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战,同时证明了在过程生成环境中,该方法可以取得优异的性能和更好的泛化能力,效率同等或更高。
Nov, 2022
本文介绍了内在动机在深度强化学习中的作用,对不同内在动机的种类进行了归类并详细说明了各自的优点和局限性,并通过建立深度强化学习和内在动机模块相结合的框架,提出了建立更加完整的发展体系来应对大部分任务的方案。
Aug, 2019
通过对智能体控制完成的问题广泛应用增强学习方法进行研究。 基于发展心理学中的内在动机的概念,提出了一个系统性方法来确定内在动机的现有方法。该方法分为三类,分别为互补的内在奖励,探索策略和内在动机的目标。 具有世界模型和内在动机的代理的架构被描述出来,以帮助提高学习能力,同时探讨了在这一领域开发新技术的潜力。
Jan, 2023
本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制,探索并比较不同的内在回报机制,重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明,基于学习量的内在奖励可以生成有用的行为,如果每个学习器是内省的。
Jun, 2019
本文提出一种新的内在奖励方式,鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动,这种方法在稀疏回报和面向过程环境中的探索中更加高效。
Feb, 2020
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并且性能好于其他启发式探索技术。
Mar, 2017
在复杂环境中,由于设计和注释的高人力成本,外部奖励通常无法满足需求,这强调了内在奖励的必要性,通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore,提供了八种先进内在奖励算法的可靠实现,并通过深入研究确定了关键的实现细节和合理的标准实践,填补了相关领域的研究空白。
May, 2024
在多智能体强化学习领域,内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法,以应对神经网络统计近似器的有限表达能力所带来的挑战,并有效控制多次重复访问任务空间的现象,在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能,尤其是在稀疏奖励设置下。
Aug, 2023
本文研究如何将内在动机与深度强化学习相结合,以用于连续系统的有向探索行为。我们基于动物激励系统的现有理论,提出了一种创新的、可扩展的有向探索策略,它受到价值函数误差的最大化的影响。大量实证研究表明,我们的框架可以扩展到更大、更多样化的状态空间,显著提高基线,明显优于非定向策略。
Oct, 2022
本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率,而内在动机学习是一种解决稀疏奖励问题的有效方法,文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。
Feb, 2023