通过最大紧张图像理解抑制

Jun, 2024

Understanding Inhibition Through Maximally Tense Images

Chris Hamblin, Srijani Saha, Talia Konkle, George Alvarez

TL;DR本论文研究了视觉模型中 ' 特征抑制 ' 的功能作用，即神经网络如何确保图像不表达给定的特征，提出通过研究 ' 最紧张的图像 '（MTIs）来理解抑制作用，介绍了两种新的可视化技术和大量探索性研究。

Abstract

We address the functional role of 'feature inhibition' in vision models; that is, what are the mechanisms by which a neural network ensures images do not express a given feature? We observe that standard

feature inhibition neural network interpretability tools maximally tense images visualization techniques

发现论文，激发创造

自监督对比学习的约束多视图表示

基于表示距离的互信息最大化方法用于量化不同视图的重要性，进而实现更高效的对比学习和表示解耦。通过在频率域提取多视图表示，并基于不同频率之间的互信息重新评估其重要性，本文提出的框架能够有效约束互信息最大化驱动的表示选择，推动多视图对比学习。

Feb, 2024

通过最大化视角间相互信息来学习表示

该研究提出了一种基于最大化共享环境的多视角特征提取之间的互信息来进行自我监督表示学习的方法，并通过使用该方法建立一个模型，该模型学习到的图像表示在 ImageNet 等任务上的表现优于以前的方法。

Jun, 2019

远程视觉多任务推理的压缩特征选择

深度模型中的特征压缩与远程推理任务之间的关联性，通过互信息作为特征重要性度量，进行硬选择和软选择实验并与其他方法进行比较，提供多目标分析来深入研究。

May, 2024

通过交叉模态相似度调节的对比学习进行视觉语言预训练

本文从互信息（MI）优化的角度研究了预训练中视觉语言交互 (VLP) 面临的（部分）误负样本的挑战，并提出了一种被逐步优化的跨模态相似性约束下的对比学习策略来更加准确地优化图像 / 文本锚点与其负样本的 MI，从而在四个下游跨模态任务中具有竞争力，平衡了（部分）误负样本的有益和有害效果。

May, 2023

利用伪造的图像标题进行多模态摘要

本文从互信息优化的角度研究了负样本对视觉语言预训练中交叉模态对比学习的影响，并提出了一种渐进式改进的交叉模态相似度对比学习策略，在理论指导下实现了对 (部分) 假负例样本有益和有害效应的平衡，这种方法在四个下游交叉模态任务中表现良好。

May, 2023

关于表示学习的互信息最大化

本文讨论自监督学习中互信息最大化方法的局限性，并提出了在特征提取器架构和互信息估算器参数化中彰显归纳偏置的重要性，并展示了这种方法的成功与深度度量学习之间的联系。

Jul, 2019

多模态数据中有用特征提取的高效方法

本文提出了 Soft-HGR 框架来从多个数据模式中提取信息特征，以解决 HGR 最大相关限制应用受限的问题。该框架不使用严格的白化约束，同时保留了与 HGR 最大相关相同的特征几何。我们进一步推广了该框架以处理多个模态和缺失模态，并进行了半监督的适应。经验证明，我们的方法学习到了更多的信息特征映射，并且更易于优化。

Nov, 2018

通过最大化本地互信息来进行多模态表征学习

该研究提出并演示了一种利用图像和文本间局部特征的互信息最大化的表示学习方法，以此训练图像和文本编码器，使其表现出高局部互信息，实验结果显示该方法在图像分类任务中具有优势。

Mar, 2021

对比学习中的互信息在视觉表征中的应用

本论文探讨了基于对比学习的图像表示学习方法，提出了一种最大化互信息的下界的目标函数，并在实验中发现选择难度更大的负样本以及视角可以提高算法性能。通过比较多种学习方法，研究结果表明，基于互信息的目标函数可以使得算法在分类、边界框检测、实例分割和关键点检测等任务上获得更好的表现。

May, 2020

对比视觉语言细粒度理解中的同模态句式和排名跨模态硬负例

为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战，本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略，该策略不需要额外的注释或参数，可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时，该方法在三个细粒度基准测试上显著提高了性能，并增强了 X-VLM 在细粒度推理上的表现。

Jun, 2023