受迭代加深搜索启发的增益调度奖励奖励

Dec, 2022

受迭代加深搜索启发的增益调度奖励奖励

Reward Bonuses with Gain Scheduling Inspired by Iterative Deepening Search

Taisuke Kobayashi

TL;DR本文介绍了一种新颖的方法，在任务导向的奖励函数中添加内在的奖励以有效促进强化学习搜索，并设计了两种奖励和启发式增益调度，可以使智能体逐渐探索未知状态，并在三个运动任务和三个简单任务中展示了两种奖励的协同作用，以及正确认识地结合它们与所提出的增益调度可以以高性能完成所有任务。

Abstract

This paper introduces a novel method of adding intrinsic bonuses to task-oriented reward function in order to efficiently facilitate reinforcement learning search. While various bonuses have been designed to date, they are analogous to the depth-first and breadth-first →

reinforcement learning intrinsic bonuses gain scheduling search algorithms performance improvement

发现论文，激发创造

计划性内在驱动：对内在驱动探索的分层性见解

本文提出了一种调度内在驱动（SID）代理，通过将内在和外在操作策略分离和调度之间，增加探索效率并稳定学习，并引入了后继特征控制（SFC）作为内在奖励的一种新类型，考虑了完整轨迹上的统计信息。实验结果表明，使用 SFC 和内在驱动的分层使用，探索效率得到了大幅提高。

Mar, 2019

利用图神经网络处理稀疏奖励

本研究提出了基于图卷积网络的两种奖励形状方法的改进方案，一种涉及高级聚合函数，另一种则利用了注意机制，我们在三维环境中对我们的解决方案进行了经验验证，结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性，并且所提出的使用注意力的方案具有可解释性。

Mar, 2022

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

多智能体强化学习中基于内在奖励的协调探索

该论文介绍了一种为多智能体设计内在奖励的框架，以促进协调探索，然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。

May, 2019

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

促进协同行为的内在动机

研究了内在动机作为勘探偏差在稀疏回报的协同任务的强化学习中的作用，提出了一种将代理器奖励于不能通过每个代理器单独的效应预测的行为的方法，并在机器人双臂操作和多代理者运动任务中验证了其有效性和效率。

Feb, 2020

多智能体强化学习中避免重复探索

在多智能体强化学习领域，内在动机作为一种重要的探索工具已经出现。我们提出了一种动态奖励缩放方法，以应对神经网络统计近似器的有限表达能力所带来的挑战，并有效控制多次重复访问任务空间的现象，在 Google Research Football 和 StarCraft II 微管理任务等挑战性环境中展示了改进的性能，尤其是在稀疏奖励设置下。

Aug, 2023

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023