受迭代加深搜索启发的增益调度奖励奖励
本文提出了一种调度内在驱动(SID)代理,通过将内在和外在操作策略分离和调度之间,增加探索效率并稳定学习,并引入了后继特征控制(SFC)作为内在奖励的一种新类型,考虑了完整轨迹上的统计信息。实验结果表明,使用 SFC 和内在驱动的分层使用,探索效率得到了大幅提高。
Mar, 2019
本研究提出了基于图卷积网络的两种奖励形状方法的改进方案,一种涉及高级聚合函数,另一种则利用了注意机制,我们在三维环境中对我们的解决方案进行了经验验证,结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性,并且所提出的使用注意力的方案具有可解释性。
Mar, 2022
该研究提出了一种名为 EIPO 的优化策略,通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系,以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试,表现优异。
Nov, 2022
该论文介绍了一种为多智能体设计内在奖励的框架,以促进协调探索,然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。
May, 2019
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并且性能好于其他启发式探索技术。
Mar, 2017
在这篇研究中,我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题,该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态,我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。
Jun, 2022
研究了内在动机作为勘探偏差在稀疏回报的协同任务的强化学习中的作用,提出了一种将代理器奖励于不能通过每个代理器单独的效应预测的行为的方法,并在机器人双臂操作和多代理者运动任务中验证了其有效性和效率。
Feb, 2020
在多智能体强化学习领域,内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法,以应对神经网络统计近似器的有限表达能力所带来的挑战,并有效控制多次重复访问任务空间的现象,在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能,尤其是在稀疏奖励设置下。
Aug, 2023
本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率,而内在动机学习是一种解决稀疏奖励问题的有效方法,文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。
Feb, 2023