- 基于视觉情节记忆的探索
使用视觉情节记忆作为内在动机的机器人探索问题的研究,通过卷积递归神经网络自编码器学习时空特征的高效表达,结构相似度作为内在动机信号来引导探索,超过了好奇心驱动的变分自编码器在发现动态异常方面的表现。
- 基于潜力的奖励塑造对内在动机的影响
最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。在这些方法中,往往会无意中改变环境中的最优策略集,导致次优行为。我们提出了一个扩展的潜在基于奖励塑造(PBRS)方法,我们证明它在比之前更一般的函数集合下保留了最优策略 - 多智能体深度强化学习中的联合内在动机
多智能体深度强化学习中,稀疏奖励与智能体之间的协调是挑战,本文提出了一种基于联合行为的奖励策略,并通过 JIM 方法展示了多智能体内在动机在解决需要高协调水平的任务中的重要性。
- 测量和建模身体内在动机
本文研究物理场景下人类行为的特征及其功能形式,通过实验数据模拟并最终发现最佳预测模型为基于物理预测损失的敌对奖励模型,同时简单场景特征模型并不能跨越不同场景泛化其对人类响应的预测。人类会被驱使进入会带来大量信息与活动的情境中。
- 虚拟代理人的发展好奇心和社交互动
本研究使用虚拟婴儿代理,在无外部奖励的情况下,测试了与人类探索的动机类似的内在奖励功能,并发现了好奇心式的内在奖励和有关性交互的连续性有助于引发探索和生成动态的社交行为和强大的预测世界模型。
- 自监督利用探索
本研究提出了一种基于内在动机的算法,采用自监督学习中的蒸馏误差作为新奇检测器,通过经验表明在十种难以探索的环境中,相对于基准模型,该方法能够更快地增长和获得更高的外部奖励,从而提高了在非常稀疏的奖励环境中的探索性能。
- 稀疏奖励多智能体强化学习中基于好奇心的探索
本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率,而内在动机学习是一种解决稀疏奖励问题的有效方法,文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 - 基于模型的强化学习中的内在动机:简要综述
通过对智能体控制完成的问题广泛应用增强学习方法进行研究。 基于发展心理学中的内在动机的概念,提出了一个系统性方法来确定内在动机的现有方法。该方法分为三类,分别为互补的内在奖励,探索策略和内在动机的目标。 具有世界模型和内在动机的代理的架构被 - 竞争生存环境下的多智能体相互作用
本研究采用多智能体相互作用的方法,开发了一个可扩展的具有现实物理和人类相关语义的竞争环境,旨在解决强探索环境中的问题,并进行了多项实验以获得简单的新兴策略和未来改进的具体方向。
- 动态控制系统中的内在动机
本研究探讨了一种基于信息理论的内在动机方法,通过最大化机器人行为的使能度来实现内在动机,该方法在基准控制问题上得到成功应用,有助于设计实用的人工内在动机控制器和将动物行为与其动力学特性联系起来。
- 好奇心创造政策搜索中的多样性
本文介绍一种利用内在动机机制的进化策略搜索方法 Curiosity-ES,以提高基于奖励的过渡的多样性和产生多种满足奖励的策略。
- 自我模仿学习中基于内在动机的探索改进方法研究
本文提出将内在动机与模仿学习相结合来优化探索行为,以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战,同时证明了在过程生成环境中,该方法可以取得优异的性能和更好的泛化能力,效率同等或更高。
- LECO: 用于任务特定内在奖励的可学习分集计数
本文提出了一种可学习的哈希式时间记数方法 LECO,它通过使用向量量化变分自编码器和任务特定调制器解决了任务无关的干扰和状态压缩问题,成功地在复杂的场景中实现了强化学习中的探索和利用的平衡。
- 连续控制中的深度内在驱动探索
本文研究如何将内在动机与深度强化学习相结合,以用于连续系统的有向探索行为。我们基于动物激励系统的现有理论,提出了一种创新的、可扩展的有向探索策略,它受到价值函数误差的最大化的影响。大量实证研究表明,我们的框架可以扩展到更大、更多样化的状态空 - 基于结构化世界模型的好奇探索实现零样本物体操作
使用结构化世界模型的内在动机强化学习算法,实现了多物体环境中的高效探索以及零样本泛化,可以完成像堆叠、翻转、拿起、投掷等任务。
- 寻求熵:从内在动机到占据行动状态路径空间的复杂行为
本研究发现,追求长期探索的智能体在没有外部奖励的情况下也能够表现出复杂的行为。研究表明,动作状态路径熵是唯一能够实现期望未来行为状态路径覆盖的一种量度。通过离散和连续状态的任务,我们展示了跳舞、捉迷藏和基本形式的利他行为可以自然而然地从熵追 - 基于图像增强的动量记忆内在奖励在稀疏奖励视觉场景中的应用
提出了一种新颖的框架 IAMMIR,将自我监督表征学习和内在动机相结合来解决视觉导航任务中只接受图像和稀疏奖励条件下智能体难以解决的问题。该方法在 Vizdoom 中进行评估,实现了样本效率的最佳表现,并且达到了 100% 的成功率,至少比 - 如何协作训练异质强化学习代理,使其适应稀疏回报的环境?
本研究结合内在动机和传递学习的思想,探讨了基于行动者 - 评论家模型共享参数和结合内在动机信息的多智能体协同学习算法,在探索和学习效率上有一定提升,并强调正确调节外部和内部奖励间的重要性,以避免不良学习行为。
- ICLR做有意义的事情:以行动实用性为本的内在动机
本文提出了一种名为 DoWhaM 的新探索方法,将重点从状态新颖性转移到具有相关动作的状态,以减少样本复杂度并解决强化学习中的探索问题。
- AAAI使用内禀动机学习目标条件策略的深度强化学习
本文提出了一种新的无监督学习方法,名为具有内在动机的目标导向策略(GPIM)。通过将抽象级别的策略与目标条件策略联合学习,本方法在各种机器人任务中证明了其有效性和高效性,大大优于先前的技术。