强化学习中的分离表示条件互信息

May, 2023

强化学习中的分离表示条件互信息

Conditional Mutual Information for Disentangled Representations in Reinforcement Learning

Mhairi Dunion, Trevor McInroe, Kevin Sebastian Luck, Josiah P. Hanna, Stefano V. Albrecht

TL;DR本研究提出了一种针对强化学习中存在相关特征的高维观察数据的辅助任务方法，通过最小化表示中特征的条件互信息来学习解缠缚表示，以提高对相关性变化的泛化能力。实验结果表明，该方法可以提高强化学习算法的训练性能和泛化能力。

Abstract

reinforcement learning (RL) environments can produce training data with spurious correlations between features due to the amount of training data or its limited feature coverage. This can lead to RL agents encoding these misleading correlations in their latent representation, preventin

reinforcement learning disentangled representations correlated features generalisation auxiliary task

发现论文，激发创造

解缠（非）可控特征

本文提出一种表示学习算法，该算法可以将隐含特征分解为可控和不可控两个部分，从而提高表示的可解释性并有效学习和规划。通过在三个不同的环境中展示该算法的分解性质，强调了该方法的优势。

Oct, 2022

从相关数据中学习分离表示

本文研究了因果变量在相关数据上的行为并分析了最主要的解缠方法在大规模实证研究（包括 4260 个模型）中的表现，结果显示数据集中系统性引入的相关性正在被学习并反映在潜在表示中，这对于解缠的下游应用如公平性有重要的影响，同时呈现了如何通过训练期间的弱监督或使用少量标签的预训练模型的后修复来解决这些潜在的相关性。

Jun, 2020

自抽取去缠结学习用于反事实预测

基于信息论的自我蒸馏位解缠框架，通过互信息最小化提供理论上可靠的独立位解缠表示，以促进存在观察和未观察混杂变量的反事实推理。

Jun, 2024

强化学习中的表示时间解耦以提高泛化能力

通过引入时间分离（TED）作为强化学习辅助任务，可以更好地利用序列化 RL 观察结果，学习更健壮的表示形式，从而使 RL 算法对未知环境变量的变化更快地适应。

Jul, 2022

通过互信息估计学习解缠表示

本文研究学习分离表现形式的问题，提出一种基于互信息估计的模型，用于捕捉数据的共享和独占组件，并强制实现表现形式分离，在共享或独占部分基础上实现图像分类和图像检索，结果表明相对于基于 VAE/GAN 方法的最先进模型，本文提出的模型表现更加出色。

Dec, 2019

无损弱监督解缠编

该论文指出只需要知道环境中有多少因素发生了变化，而不必了解哪些因素发生了变化，就足以学习到分离的表征，同时实验表明，这种弱监督方式足以在多个基准数据集上可靠地学习到分离的表征，并在多个任务上发挥作用，包括协变量漂移下的一般化、公平性和抽象推理。

Feb, 2020

强化学习中解耦特征表示隐藏参数的学习与理解

本文提出了一种无监督方法，通过改进 RNN world model 的训练算法和利用 metric learning 映射 RNN memory 到 feature space 中，将 RL 轨迹从隐藏参数对系统行为的影响中解开，从而可对系统中的隐藏参数进行分析和研究。

Nov, 2022

信息论视角下的解耦文本表示学习对抗性鲁棒性

本文从可分离表示学习的角度解决了对抗鲁棒性的挑战，并设计了一个可分离学习网络来估计互信息，实验证明该方法在对抗攻击下显著优于代表性方法，强调舍弃非鲁棒性特征对于提高对抗鲁棒性至关重要。

Oct, 2022