条件信息流最大化的表示学习

ACLJun, 2024

Representation Learning with Conditional Information Flow Maximization

Dou Hu, Lingwei Wei, Wei Zhou, Songlin Hu

TL;DR本论文提出了一个名为条件信息流最大化的信息论表示学习框架，用于提取输入数据和目标任务的噪声不变的充分表示。该方法通过最大化输入 - 表示和表示 - 标签互信息，同时促进学习到的表示具有较好的特征一致性和充分的预测能力，从而增强了预训练语言模型在目标任务中的泛化能力。实验证明，该方法有效地提升了用于分类和回归的预训练语言模型的性能，并且学到的表示更加充分、鲁棒和可迁移。

Abstract

This paper proposes an information-theoretic representation learning framework, named conditional information flow maximization, to extract noise-invariant →

information-theoretic representation learning conditional information flow maximization sufficient representations pre-trained language models generalization

发现论文，激发创造

信息最大化准则的自监督学习

本文介绍一种基于互信息的 self-supervised 方法 CorInfoMax，该方法通过最大化高斯混合分布下的互信息解决了 mode collapse 和 dimensional collapse 问题。

Sep, 2022

神经群体 Infomax 快速稳健非监督学习的信息论框架

提出了一种基于 infomax 原理的框架，可实现对大规模神经群体进行无监督学习。该方法使用基于渐近的方法来对大规模神经群体的信息论下限进行计算，通过渐进性的不断往全局信息论最优解靠近的过程，可以获得一个很好的初始值。基于该初始值，提出了一个高效的算法来从输入数据集中学习特征表示，并且该方法适用于完备、过完备和欠完备情况下的基函数。和现有的方法相比，该算法在无监督表示学习的训练速度和鲁棒性方面都具有明显的优势，而且还可以轻松地扩展到用于训练深层结构网络的监督或无监督模型。

Nov, 2016

语言表示学习的互信息最大化视角

本文介绍了词表示学习的最新方法，通过互信息最大化来统一传统的词嵌入模型和现代上下文嵌入模型。此外，我们提出了一种构建新的自监督任务的框架，并提供了一种简单的自监督目标函数来最大化句子全局表示和 n-gram 之间的互信息。这种方法可以在自然语言处理、计算机视觉和音频处理等多个领域传递知识和推进进展。

Oct, 2019

通过互信息估计和最大化学习深层表示

通过在深度神经网络编码器的输入和输出之间最大化互信息来进行无监督学习表示，该方法将表示的特征与先前分布进行敌对匹配，优于其他无监督学习方法并能够在多个分类任务中与全监督学习相竞争，深度信息最大化（DIM）为特定端点目标的无监督学习表示开启了新的途径。

Aug, 2018

学习域不变表示特征的条件熵最小化原则

提出了一种基于条件熵最小化原则的框架，用于过滤混入小说不变特征的不变特征，以增强新算法的泛化能力。

Jan, 2022

通过对抗特征学习实现可控的不变性

本文提出了一种通过对抗学习策略学习能够抵抗特定数据因素影响的新型表示学习方法，并通过多个基准测试表明所提出的方法可以获取到不变表示，从而提高模型的泛化能力。

May, 2017

鲁棒性深度表征的信息论学习

本文提出一种基于信息论的学习鲁棒性深度表示的新颖目标函数，通过将数据投影到特征矢量空间，最大化相对于监督信号的所有特征子集的互信息，得到鲁棒表示，其对噪声或不可用特征的信息保留能力较强，我们利用一种替代目标函数最小化的方式实现此目标函数并进行实验验证。

May, 2019

自监督对比学习的约束多视图表示

基于表示距离的互信息最大化方法用于量化不同视图的重要性，进而实现更高效的对比学习和表示解耦。通过在频率域提取多视图表示，并基于不同频率之间的互信息重新评估其重要性，本文提出的框架能够有效约束互信息最大化驱动的表示选择，推动多视图对比学习。

Feb, 2024

流分解表示学习

流式因式分解表示学习是一个新颖的结构化表示学习视角，该模型通过动态最优输运的梯度场生成一组不同输入变换的潜在概率路径，并在标准表示学习基准上获得更高的似然度，同时接近于近似等变模型，具有鲁棒性和广泛适用性。

Sep, 2023

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024