深度强化学习和信息最大化学习

Jun, 2020

Deep Reinforcement and InfoMax Learning

Bogdan Mazoure, Remi Tachet des Combes, Thang Doan, Philip Bachman, R Devon Hjelm

TL;DR本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法，目的是让模型预测未来状态，从而提高处理强化学习问题的性能。测试表明，这种方法在多个人工场景中学到了预测未来状态的表示，并应用于 C51 模型中，在连续学习任务和 Procgen 环境中实现了性能提升。

Abstract

We begin with the hypothesis that a model-free agent whose representations are predictive of properties of future states (beyond expected rewards) will be more capable of solving and adapting to new RL problems. To test that hypothesis, we introduce an objective based on →

model-free agent deep infomax mutual information continual learning procgen environment

发现论文，激发创造

通过互信息估计和最大化学习深层表示

通过在深度神经网络编码器的输入和输出之间最大化互信息来进行无监督学习表示，该方法将表示的特征与先前分布进行敌对匹配，优于其他无监督学习方法并能够在多个分类任务中与全监督学习相竞争，深度信息最大化（DIM）为特定端点目标的无监督学习表示开启了新的途径。

Aug, 2018

视频深度信息最大化表示学习

本文介绍一种名为 Video Deep InfoMax (VDIM) 的自监督学习方法，将原 DeepInfoMax 扩展至视频领域，其利用内部结构构建视图，并利用这些视图进行预测任务，从而实现对 UCF-101 数据集的行为识别任务的 SoTA 预测结果。

Jul, 2020

最大化互信息以获得稳健可规划表征

MIRO 设计了一个潜在的数据空间，最大化与未来信息的互信息，同时能够捕获规划所需的所有信息，并在干扰和杂乱的场景中比重建目标更具鲁棒性。

May, 2020

通过预测奖励最大化部分可观测环境中的信息增益

本文着眼于使用基于信念的奖励机制进行深度强化学习，提出了通过最大化任何凸函数的信念来实现近似的预测奖励，为深度强化学习的应用提供了新的解决方案，包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。

May, 2020

自我预测表示法的数据有效强化学习

本文提出了自回归表示 (Self-Predictive Representations, SPR) 方法，使用深度强化学习方法，并结合自监督目标和对视觉输入和与环境的交互结构的预测，提高了代理器的学习效率，并在 Atari 游戏中显著提高了性能。

Jul, 2020

将对比学习与动态模型集成，用于从图像中进行强化学习

本文提出了一种自监督表征学习方法，它将对比学习与动态模型相结合，以协同地实现三个目标，即通过最大化信息 NCE 界来诱导线性预测嵌入，通过显式学习非线性转换模型进一步提高学习嵌入的马尔可夫性以及最大化下一嵌入的互信息，其基于当前动作和当前状态的两个独立增强的嵌入预测，实验表明，与基于对比学习或重建的现有方法相比，我们的方法在样本效率和泛化性能上都取得了更好的结果。

Mar, 2022

最大熵深层逆强化学习

本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架，并展示了最大熵范例在 IRL 中的有效训练方法，具有与现有基准相当的性能，超过基于高度变化奖励结构的替代基准。同时，作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。

Jul, 2015

深度强化学习中的信息瓶颈用于动态泛化

采用信息论正则化目标和一个退火优化方法来提高强化学习代理的泛化能力，从而在不同领域的任务中实现极端泛化，揭示信息理论和机器学习之间的联系。

Aug, 2020

利用隐空间动态模型的信息最大化探索

本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Apr, 2018

生成内在优化：具备模型学习的内在控制

采用变分方法联合学习估计互信息和动力学模型的必要数量，提供了一种结合不同形式感兴趣结果的广泛框架，将内部激励与奖励最大化相结合，以增强样本效率并将环境的不确定性纳入决策中。

Oct, 2023