揭示督导学习中信息互动的动态

ICMLJun, 2024

Unveiling the Dynamics of Information Interplay in Supervised Learning

Kun Song, Zhiquan Tan, Bochao Zou, Huimin Ma, Weiran Huang

TL;DR利用矩阵信息理论作为分析工具，本文研究了数据表示和分类头向量在监督学习过程中的信息交互动态，引入了矩阵互信息比率（MIR）和矩阵熵差比率（HDR）来评估数据表示和分类头在监督学习中的相互作用，并确定了当发生神经坍缩时 MIR 和 HDR 的理论最优值。实验结果表明，MIR 和 HDR 可以有效解释神经网络中发生的许多现象，例如标准监督训练动态、线性模式连通性以及标签平滑和修剪的性能。此外，将 MIR 和 HDR 引入监督和半监督学习中作为损失项，以优化样本和分类头之间的信息交互。实证结果证明了该方法的有效性，不仅有助于理解训练过程中的动态，还能增强训练过程本身。

Abstract

In this paper, we use matrix information theory as an analytical tool to analyze the dynamics of the information interplay between data representations and classification head vectors in the supervised learning p

matrix information theory supervised learning neural collapse mir hdr

发现论文，激发创造

深度神经网络模型中的熵和互信息

本文介绍了一类采用可计算的信息理论模型的深度学习模型，探讨了该模型从启发式的统计物理方法中导出熵和互信息的方法，在该方法的基础上，设计了一种实验框架用于对生成模型进行训练，并对该模型进行验证，同时研究了本模型在学习过程中的行为，得出结论：在所提出的情况下，压缩和泛化之间的关系仍然不明确。

May, 2018

自监督学习中的信息流

本文通过矩阵信息理论的视角提供了一个全面的工具箱，用于理解和增强自监督学习方法，其中包括对比方法、特征去相关方法的统一分析，并提出了基于矩阵信息理论的矩阵变分掩膜自编码器 (M-MAE) 方法作为对掩膜图像建模的一种增强方法。经验证实，M-MAE 相对于最先进方法，在 ImageNet 上线性探测 ViT-Base 性能提升了 3.9%，微调 ViT-Large 性能提升了 1%。

Sep, 2023

多模式学习系统中的互信息分析

本文研究了多模态信号处理和分析的应用，通过利用信息计量的概念和 InfoMeter 系统，分析了自动驾驶的大规模数据集中的多模态 3D 物体检测系统，并提出了低模态间信息量对于检测准确性有益的新见解。

May, 2024

互信息学习的分类器：从信息理论的角度训练深度学习分类系统

本文用互信息作为代替条件熵来训练深度神经网络分类器，并且在多个基准数据集上进行了实验证明，相对于现有交叉熵损失函数训练的模型，提出的互信息模型 (MILCs) 性能更好，总体测试准确率提升超过 10%。

Oct, 2022

利用机器学习进行信息分解，识别复杂系统中的相关变化

通过信息熵，我们提出了一种实用的方法来解压数据中的重要变化，以研究复杂系统。

Jul, 2023

用于图像特征计数及其匹配的信息和互信息比率

该论文提出了两个新的图像特征，即信息比率（IR）和相互信息比率（MIR），并在信息理论的背景下阐述了 IR 和 MIR 的关系，用于图像重建，拼接，镶嵌和识别等计算机视觉任务，并在 INRIA Copydays 数据集和 Oxfords Affine Covariant Regions 上进行了数字评估，证实了这些特征在实际计算机视觉任务中的有效性。

May, 2020

对比学习中的互信息在视觉表征中的应用

本论文探讨了基于对比学习的图像表示学习方法，提出了一种最大化互信息的下界的目标函数，并在实验中发现选择难度更大的负样本以及视角可以提高算法性能。通过比较多种学习方法，研究结果表明，基于互信息的目标函数可以使得算法在分类、边界框检测、实例分割和关键点检测等任务上获得更好的表现。

May, 2020

对比学习中互信息的严谨分析

对比学习通过互信息分析的深入研究，引入了三种新方法和一些相关定理，以增强互信息分析的严谨性，并通过重新评估对比学习分析的三个实例，展示了它们在加深理解或纠正误解方面的能力。

Aug, 2023

基于矩阵熵的大型语言模型评估

通过信息论和几何原理，我们引入了矩阵熵作为一种新的度量标准，以量化大型语言模型中的数据压缩能力，展示其在单模态和多模态设置中的适用性，并发现它可以作为传统损失缩放定律的补充。同时，我们基于矩阵熵提出了一种评估方法，用于评估对齐质量，并发现现代大型多模态模型表现出良好的对齐性能。

Jan, 2024

互信息哈希

该研究提出了一种基于互信息优化的新型监督式哈希方法，通过在深度神经网络中优化互信息来学习二进制向量嵌入，从而在大规模高维对象数据库检索中获得高质量的二进制嵌入。

Mar, 2018