强化学习的受限内在动机

Jul, 2024

Constrained Intrinsic Motivation for Reinforcement Learning

Xiang Zheng, Xingjun Ma, Chao Shen, Cong Wang

TL;DR该研究探讨了在无奖励预训练和探索过程中利用内在动机进行强化学习时出现的两个基本问题：如何设计有效的内在目标，并在探索过程中减少内在目标引入的偏差。通过提出具有约束的内在动机方法，在无奖励预训练和探索过程中解决了现有方法存在的静态技能、有限状态覆盖、样本效率低和次优性等问题，并在多个MuJoCo机器人环境中进行了验证和性能对比。

Abstract

This paper investigates two fundamental problems that arise when utilizing intrinsic motivation (IM) for reinforcement learning in reward-free pre-training (RFPT) tasks and Exploration with →

发现论文，激发创造

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用MDP转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

无监督稳定性高效赋能估计

为了解决通过变分下界(VLB)计算确定性经验上均衡值(EEI)方法存在的繁琐、高成本等问题，本文采用了基于可训练的高斯信道来构建一种通用的无偏EM算法，提出了一种新型方法，能够在不考虑外在奖励的情况下，通过包含每个执行器和未来状态之间的量的交互信息来实现不同控制环境下的稳定性控制，而且该方法能够大大降低采样的复杂性，并展示了该方法的优点。

Jul, 2020

使用内禀动机学习目标条件策略的深度强化学习

本文提出了一种新的无监督学习方法，名为具有内在动机的目标导向策略（GPIM）。通过将抽象级别的策略与目标条件策略联合学习，本方法在各种机器人任务中证明了其有效性和高效性，大大优于先前的技术。

Apr, 2021

强化学习中的对抗内在动机

论文研究了使用Wasserstein-1距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于Adversarial Intrinsic Motivation的算法并应用于Hindsight Experience Replay以加速学习。

May, 2021

无监督技能发现的对比内在控制

本文提出了一种无监督技能发现算法 Contrastive Intrinsic Control，它可以最大化状态转换和潜在技能向量之间的互信息。该算法对状态转换和技能之间进行对比学习，以学习行为嵌入并将这些嵌入的熵最大化作为内在奖励以促进行为多样性。我们在无监督强化学习基准上评估了我们的算法，CIC大大提高了适应效率，在无监督技能发现方法方面优于以前的方法1.79倍，并且整体探索算法效果比第二名提高1.18倍。

Feb, 2022

如何协作训练异质强化学习代理，使其适应稀疏回报的环境？

本研究结合内在动机和传递学习的思想，探讨了基于行动者-评论家模型共享参数和结合内在动机信息的多智能体协同学习算法，在探索和学习效率上有一定提升，并强调正确调节外部和内部奖励间的重要性，以避免不良学习行为。

Feb, 2022

应用内在动机技术于强化学习在难度较高的探索环境中的评估研究

本文旨在探讨强化学习中的探索问题以及先锋内在动机技术对不同设计因素的可变性和易感性的影响，强调这些设计方面的谨慎选择以及环境和任务的探索要求，以保证公正比较。

May, 2022

基于技能的强化学习与内在奖励匹配

本文提出了一种名为Intrinsic Reward Matching (IRM)的方法，通过skill discriminator将预训练和下游任务微调这两个阶段的学习结合起来，以更好地匹配内在和下游任务奖励，从而有效地利用预训练技能

Oct, 2022

通过受限制优化提升内在奖励

该研究提出了一种名为EIPO的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在61个ATARI游戏中的测试，表现优异。

Nov, 2022

生成内在优化：具备模型学习的内在控制

采用变分方法联合学习估计互信息和动力学模型的必要数量，提供了一种结合不同形式感兴趣结果的广泛框架，将内部激励与奖励最大化相结合，以增强样本效率并将环境的不确定性纳入决策中。

Oct, 2023