采用变分方法联合学习估计互信息和动力学模型的必要数量,提供了一种结合不同形式感兴趣结果的广泛框架,将内部激励与奖励最大化相结合,以增强样本效率并将环境的不确定性纳入决策中。
Oct, 2023
本文提出了一种基于 Intrinsic motivation 的强化学习方法,其奖励函数被定义为智能体状态与周围状态之间的互信息,实现了比以前的方法更好的效果,包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。
Mar, 2021
通过代表愿景达成的功能感知状态表示进行的变分互信息最大化,能够为达到愿景状态的广泛应用的多任务策略的自监督强化学习提供框架和方法,同时还提出了广义 GCRL 和 MI-Based RL 的统一方法,即 VGCRL,并结合方法的容量和光滑性分析了能力扩展,以及其与不同线性变换结构的潜在目标发现算法的比较评价指标,即 LGR。
Jun, 2021
基于内部驱动的强化学习算法以目标状态和可控状态之间的相互信息为内在目标,在机器人操纵和导航任务中取得了明显的成果。
Feb, 2020
本文提供了一种新的通过合并变分推理和深度学习技术以扩展优化相互信息的方法,该方法可用于从像素到动作的可伸缩信息最大化和基于赋权的推理。
Sep, 2015
Deep Reinforcement Learning 领域中基于选择框架的 DVQN 算法提出了一种基于高斯分布的潜在空间来定义选择并通过传统的 Q-Learning 更新来找到良好策略的方法,通过实验证明其可替代 Rainbow 算法在自动识别选择的开始和结束条件方面表现可能更好。
Oct, 2022
基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出,但由于训练技能的顺序会在很大程度上影响样本效率,对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习(VCRL)的方法,将变分增强视为内在奖励函数的目标条件强化学习中的课程学习,并基于信息理论提出了一种无监督技能发现的新方法,称为值不确定性变分课程(VUVC)。我们证明,在一定的正则条件下,与均匀课程相比,VUVC 能够加快访问状态熵的增加。我们通过复杂导航和机器人操作任务验证了我们方法的有效性,同时以零次设定下的真实世界机器人导航任务为例,证明了通过我们方法发现的技能能够成功完成任务,并且将这些技能与全局规划器相结合可以进一步提高性能。
本篇论文提出了一种基于变分信息最大化探索的方法 VIME,使用贝叶斯神经网络中的变分推断实现,能有效处理连续状态和动作空间,在多种连续控制任务和算法中表现显著优于启发式探索方法。
May, 2016
介绍了一种计算实用价值下限的方法,使其可用作实时控制中的无监督代价函数,尤其适合于连续动态系统。
Oct, 2017
在强化学习中,Option 在不同时间尺度上进行推理的框架已引起研究界的广泛关注。近年来,无监督学习成为强化学习的研究热点,并在 Option 框架中引入了 “Empowerment”(赋权)这一概念,这是代理人对环境影响力的程度和感知这种影响的能力,可以在没有环境奖励结构的监督下进行优化。许多近期的研究通过多种方式修改这个概念并取得了令人瞩目的结果。本研究通过赋权原则的视角对这些论文进行了比较研究。
Jun, 2022