基于互信息的状态控制方法用于内在驱动强化学习

Feb, 2020

基于互信息的状态控制方法用于内在驱动强化学习

Mutual Information-based State-Control for Intrinsically Motivated Reinforcement Learning

Rui Zhao, Yang Gao, Pieter Abbeel, Volker Tresp, Wei Xu

TL;DR基于内部驱动的强化学习算法以目标状态和可控状态之间的相互信息为内在目标，在机器人操纵和导航任务中取得了明显的成果。

Abstract

In reinforcement learning, an agent learns to reach a set of goals by means of an external reward signal. In the natural world, intelligent organisms learn from internal drives, bypassing the need for external signals, which is beneficial for a wide range of tasks. Motivated by this ob

reinforcement learning intrinsic objectives mutual information robotic manipulation navigation

发现论文，激发创造

互信息状态内在控制

本文提出了一种基于 Intrinsic motivation 的强化学习方法，其奖励函数被定义为智能体状态与周围状态之间的互信息，实现了比以前的方法更好的效果，包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。

Mar, 2021

基于视觉模型的强化学习中通过赋能实现信息优先级排序

提出一种改进目标函数的模型化强化学习算法，通过互信息最大化来学习视觉模型化强化学习的表示和动力学，并将与行动相关的信息优先考虑，同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估，表明该方法比基于模型的先进 RL 方法具有更高的性能和采样效率。

Apr, 2022

生成内在优化：具备模型学习的内在控制

采用变分方法联合学习估计互信息和动力学模型的必要数量，提供了一种结合不同形式感兴趣结果的广泛框架，将内部激励与奖励最大化相结合，以增强样本效率并将环境的不确定性纳入决策中。

Oct, 2023

混合信息驱动多智能体强化学习

利用信息理论模型作为启发式算法来帮助大规模稀疏状态的代理系统寻找高级策略的混合信息驱动多代理强化学习（MARL）方法被提出和研究。通过初步实验结果表明，这一方法可以使代理系统在探索稀疏状态空间方面获得高达三个数量级的有效性提升。

Feb, 2021

哪些互信息表示学习目标足以支持控制？

本文研究了互信息最大化在强化学习中学习数据表示的应用，发现在理论上两种常见的互信息目标不足以提供充分的状态表示来学习最优策略，并在模拟游戏环境中通过实证实验验证了这一结果。

Jun, 2021

变分内在控制

本文介绍一种新的无监督强化学习方法，旨在通过最大化智能体可靠到达的不同状态的数量来发现可用的本质选项集，并提供隐式和显式的选项表示，提供在特定状态下使用的授权最大化代理所需的显式的授权度量。

Nov, 2016

动态控制系统中的内在动机

本研究探讨了一种基于信息理论的内在动机方法，通过最大化机器人行为的使能度来实现内在动机，该方法在基准控制问题上得到成功应用，有助于设计实用的人工内在动机控制器和将动物行为与其动力学特性联系起来。

Dec, 2022

基于观测的内部模型用于奖励塑造

本研究提出一种新的强化学习方法，即基于内部模型的奖励估计方法，通过预测给定专家状态分布的预测模型来估计奖励，进而直接从专家操作的视频中成功训练出良好的策略。

Jun, 2018

自监督学习图像嵌入以进行连续控制

本研究探讨了完全自我监督的学习方法，基于状态达成最短时间来实现通用图像嵌入和控制基元，同时介绍了一种新的状态操作价值函数结构，建立了模型自由和模型基础方法之间的联系，并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。

Jan, 2019

EMI: 互信息探索

提出了一种名为 EMI 的探索方法，它利用内在动机通过状态和行动的嵌入表示来引导探索，用于解决强化学习中奖励信号稀疏的问题，取得了具有竞争力的结果。

Oct, 2018