稀疏奖励多智能体强化学习中基于好奇心的探索
本文提出了一种基于好奇心驱动的多智能体共探算法,旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明,这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。
Oct, 2022
该论文介绍了一种为多智能体设计内在奖励的框架,以促进协调探索,然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。
May, 2019
本文提出将内在动机与模仿学习相结合来优化探索行为,以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战,同时证明了在过程生成环境中,该方法可以取得优异的性能和更好的泛化能力,效率同等或更高。
Nov, 2022
在这篇研究中,我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题,该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态,我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。
Jun, 2022
本研究探索和对比了现有的强化学习方法,以避免仅提供稀少回报的环境的难度,并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案,提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。
Oct, 2019
稀疏奖励环境对于强化学习代理是具有挑战性的,本文提出了一种新的内在奖励,系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖,通过与其他探索性内在奖励技术(即好奇心驱动学习和随机网络蒸馏)进行比较,证明了该信息理论奖励具有高效探索,其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后,我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法,提高了样本效率并推广到连续状态空间。
Oct, 2023
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并且性能好于其他启发式探索技术。
Mar, 2017
通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号,提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力,具有在不同领域中推广的潜力。
May, 2017
在多智能体强化学习领域,内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法,以应对神经网络统计近似器的有限表达能力所带来的挑战,并有效控制多次重复访问任务空间的现象,在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能,尤其是在稀疏奖励设置下。
Aug, 2023
本文提出一种新的内在奖励方法,利用自监督预测模型和核范数来评估历史知识对当前观察的差异,以此解决稀疏奖励的强化学习问题,并在多个基准环境下展示其优越性。
Aug, 2022