哪些互信息表示学习目标足以支持控制？

Jun, 2021

哪些互信息表示学习目标足以支持控制？

Which Mutual-Information Representation Learning Objectives are Sufficient for Control?

Kate Rakelly, Abhishek Gupta, Carlos Florensa, Sergey Levine

TL;DR本文研究了互信息最大化在强化学习中学习数据表示的应用，发现在理论上两种常见的互信息目标不足以提供充分的状态表示来学习最优策略，并在模拟游戏环境中通过实证实验验证了这一结果。

Abstract

mutual information maximization provides an appealing formalism for learning representations of data. In the context of reinforcement learning (RL), such representations can accelerate learning by discarding irre

mutual information maximization reinforcement learning state representation optimal policy mdp

发现论文，激发创造

最大化互信息以获得稳健可规划表征

MIRO 设计了一个潜在的数据空间，最大化与未来信息的互信息，同时能够捕获规划所需的所有信息，并在干扰和杂乱的场景中比重建目标更具鲁棒性。

May, 2020

基于互信息的状态控制方法用于内在驱动强化学习

基于内部驱动的强化学习算法以目标状态和可控状态之间的相互信息为内在目标，在机器人操纵和导航任务中取得了明显的成果。

Feb, 2020

互信息状态内在控制

本文提出了一种基于 Intrinsic motivation 的强化学习方法，其奖励函数被定义为智能体状态与周围状态之间的互信息，实现了比以前的方法更好的效果，包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。

Mar, 2021

内在动机强化学习的变分信息最大化

本文提供了一种新的通过合并变分推理和深度学习技术以扩展优化相互信息的方法，该方法可用于从像素到动作的可伸缩信息最大化和基于赋权的推理。

Sep, 2015

语言表示学习的互信息最大化视角

本文介绍了词表示学习的最新方法，通过互信息最大化来统一传统的词嵌入模型和现代上下文嵌入模型。此外，我们提出了一种构建新的自监督任务的框架，并提供了一种简单的自监督目标函数来最大化句子全局表示和 n-gram 之间的互信息。这种方法可以在自然语言处理、计算机视觉和音频处理等多个领域传递知识和推进进展。

Oct, 2019

基于视觉模型的强化学习中通过赋能实现信息优先级排序

提出一种改进目标函数的模型化强化学习算法，通过互信息最大化来学习视觉模型化强化学习的表示和动力学，并将与行动相关的信息优先考虑，同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估，表明该方法比基于模型的先进 RL 方法具有更高的性能和采样效率。

Apr, 2022

深度强化学习和信息最大化学习

本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法，目的是让模型预测未来状态，从而提高处理强化学习问题的性能。测试表明，这种方法在多个人工场景中学到了预测未来状态的表示，并应用于 C51 模型中，在连续学习任务和 Procgen 环境中实现了性能提升。

Jun, 2020

鲁棒性深度表征的信息论学习

本文提出一种基于信息论的学习鲁棒性深度表示的新颖目标函数，通过将数据投影到特征矢量空间，最大化相对于监督信号的所有特征子集的互信息，得到鲁棒表示，其对噪声或不可用特征的信息保留能力较强，我们利用一种替代目标函数最小化的方式实现此目标函数并进行实验验证。

May, 2019

对比学习中的互信息在视觉表征中的应用

本论文探讨了基于对比学习的图像表示学习方法，提出了一种最大化互信息的下界的目标函数，并在实验中发现选择难度更大的负样本以及视角可以提高算法性能。通过比较多种学习方法，研究结果表明，基于互信息的目标函数可以使得算法在分类、边界框检测、实例分割和关键点检测等任务上获得更好的表现。

May, 2020

最大化 Wasserstein 距离的内在控制

本文提出了一种通过最大化状态访问的 Wasserstein 距离学习最大化技能的代理奖励的方法，这种方法比基于多样性的目标导向策略在 MDP 中的覆盖范围更广，并在各种 Atari 环境中验证了结果。

Oct, 2021