- ICML具有广义函数近似的考虑不确定性的无奖励探索
通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法,其中的关键思想是通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性,通过在 DeepMind Cont - RLeXplore: 加速内在动机驱动的强化学习研究
在复杂环境中,由于设计和注释的高人力成本,外部奖励通常无法满足需求,这强调了内在奖励的必要性,通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore,提供了八种先进内在奖励算法的可 - 作为多智能体强化学习的内在探索支架的个体贡献
在多智能体强化学习中,通过评估每个智能体的贡献来激励探索是一种能在稀疏奖励环境下促进多智能体探索的新方法。通过构建基于贝叶斯惊喜的探索支架,ICES 利用集中式训练期间的全局转换信息来指导个体智能体的行动,并将探索策略与利用策略分离,使前者 - TopoNav:稀疏奖励环境下的高效探索的拓扑导航
自主机器人的目标导向探索中,TopoNav 框架通过主动拓扑映射、内在奖励机制和分层目标优先级确保有效、适应性强的探索,提高探索效率和导航准确性,适用于搜索与救援、环境监测以及行星探索等广泛应用领域。
- DCIR: 多智能体强化学习的动态一致性内部奖励
为了解决多智能体系统中智能体学习最优行为策略的问题,本文提出了一种新方法来利用内部奖励使智能体能够学习是否应该与其他智能体保持一致的行为,并通过动态一致性内部奖励 (DCIR) 和动态比例网络 (DSN) 来评估其效果。
- 神经启发的碎片化和回忆:解决好奇心中的灾难性遗忘
在大型环境中,深度强化学习方法在多个任务上表现出色,但在具有稀疏奖励的困难探索任务上仍然面临困难。本研究发现基于预测的内在奖励方法可能出现灾难性遗忘,并提出了一种名为 FARCuriosity 的新方法,通过碎片化和回溯来减轻灾难性遗忘问题 - 超越想象:通过世界模型最大化情节可达性
本文介绍了一种名为 GoBI(Go Beyond Imagination)的新型内在奖励设计,结合传统的终身新颖性动机和以步进可达性扩展为目标设计的情节内在奖励,通过应用学习到的世界模型生成具有随机动作的预测未来状态,从而给予那些在情节记忆 - 通过意外记忆激发内在动机
我们提出了一种新的计算模型,用于强化学习中的内在奖励,解决了现有基于惊喜驱动的探索的局限性。奖励是惊喜的新颖性,而不是惊喜的规范。我们通过内存网络的检索错误来估计惊喜的新颖性,其中内存存储和重构惊喜。我们的惊喜记忆(Surprise Mem - CLUE: 离线强化学习的校准潜在指导
本文提出了一种基于专家数据提取内在奖励的方法,该方法利用了 Calibrated Latent Guidance (CLUE) 来消除离线 RL 中需要手动指定外部奖励的步骤,并在不同的离线 RL 任务中取得了良好效果。
- 利用离线预训练状态转向转换器从视觉观察中学习
本文提出了一种基于视觉观测的学习方法,使用两阶段的 State-to-Go (STG) Transformer 训练出内在奖励进行强化学习,实现了利用仅有视频数据解决视觉强化学习任务的潜力,并在 Atari 和 Minecraft 等数据集 - 继承 - 前继内在探索
本篇论文提出了 Successor-Predecessor Intrinsic Exploration (SPIE) 算法,并将其应用于深度强化学习代理中,展示了在稀疏奖励和瓶颈状态下,相对于其它算法,SPIE 能够产生更具效率和更符合生态 - MIMEx:基于掩码输入建模的内在奖励
提出了一种用于探索的通用框架 Masked Input Modeling for Exploration (MIMEx),它能够通过灵活调整掩码分布来控制条件预测任务的难度,并在一系列挑战性的稀疏奖励视觉运动任务中取得了优异的结果。
- 以混合目标为驱动的好奇心多智能体探索
本文提出了一种基于好奇心驱动的多智能体共探算法,旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明,这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。
- 强化学习中的探索问题:基于情节访问差异性的奖励机制
该研究提出一种针对高维度观察和稀疏奖励环境的计算高效和数量化探索方法 —— 基于奖励的情节访问差异度(REVD)。研究表明,REVD 可以显著提高增强学习算法的样本效率并优于基准方法。
- 通过学习动机一致的内在回报自动设计奖励
本文提出了一种基于动机的奖励设计方法,自动生成目标一致的内在奖励,以最大程度地增大期望的累积外在奖励,该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。
- 强化学习中利用 Rényi 状态熵加速探索
为解决深度强化学习中的长期探索能力问题,本文提出了一种基于 Rényi 熵的新型内在奖励模块,并通过较广泛的模拟结果证明了其高于现有方案的性能。
- 自动设计有趣的多智能体环境
通过提供内在的奖励机制,增加多智能体环境中 RL 学习的效率,我们在多智能体 Hide and Seek 和单智能体迷宫任务中,考察了一系列根据预测问题构建的内在老师奖励,并发现其中价值不一致是最为稳健和高效的奖励方式。
- 利用语言抽象提高内在探索能力
本文研究探讨使用自然语言作为一种通用媒介以提高强化学习领域中稀疏奖励的训练效果,通过与 AMIGo 和 NovelD 等竞争性内部探索基线进行直接扩展和比较,本研究探究语言能否优化现有的探索方法,其与非语言形式相比在 MiniGrid 和 - ICLR问与探索:基于探求驱动的实地问答
本文提出基于有足实体依据的问答的好奇心算法,通过对自然语言问题的回答获得对环境物理属性和空间关系的了解,为异馆收益任务提供了宝贵的好奇心奖励,从而解决了现有好奇心算法的局限性。
- ICLRA Simple Approach for Exploration in Procedurally-Generated Environments: Episode Ranking
RAPID 是为了针对面向过程的生成环境重复性不高的情况,适用于强化学习的全集探索评估方法。我们的实验显示,RAPID 在提高样本效率和最终性能方面,显著优于当前最先进的基于内部奖励的策略。