通过最大紧张图像理解抑制
基于表示距离的互信息最大化方法用于量化不同视图的重要性,进而实现更高效的对比学习和表示解耦。通过在频率域提取多视图表示,并基于不同频率之间的互信息重新评估其重要性,本文提出的框架能够有效约束互信息最大化驱动的表示选择,推动多视图对比学习。
Feb, 2024
该研究提出了一种基于最大化共享环境的多视角特征提取之间的互信息来进行自我监督表示学习的方法,并通过使用该方法建立一个模型,该模型学习到的图像表示在 ImageNet 等任务上的表现优于以前的方法。
Jun, 2019
本文从互信息(MI)优化的角度研究了预训练中视觉语言交互 (VLP) 面临的(部分)误负样本的挑战,并提出了一种被逐步优化的跨模态相似性约束下的对比学习策略来更加准确地优化图像 / 文本锚点与其负样本的 MI,从而在四个下游跨模态任务中具有竞争力,平衡了(部分)误负样本的有益和有害效果。
May, 2023
本文从互信息优化的角度研究了负样本对视觉语言预训练中交叉模态对比学习的影响,并提出了一种渐进式改进的交叉模态相似度对比学习策略,在理论指导下实现了对 (部分) 假负例样本有益和有害效应的平衡,这种方法在四个下游交叉模态任务中表现良好。
May, 2023
本文讨论自监督学习中互信息最大化方法的局限性,并提出了在特征提取器架构和互信息估算器参数化中彰显归纳偏置的重要性,并展示了这种方法的成功与深度度量学习之间的联系。
Jul, 2019
本文提出了 Soft-HGR 框架来从多个数据模式中提取信息特征,以解决 HGR 最大相关限制应用受限的问题。该框架不使用严格的白化约束,同时保留了与 HGR 最大相关相同的特征几何。我们进一步推广了该框架以处理多个模态和缺失模态,并进行了半监督的适应。经验证明,我们的方法学习到了更多的信息特征映射,并且更易于优化。
Nov, 2018
该研究提出并演示了一种利用图像和文本间局部特征的互信息最大化的表示学习方法,以此训练图像和文本编码器,使其表现出高局部互信息,实验结果显示该方法在图像分类任务中具有优势。
Mar, 2021
本论文探讨了基于对比学习的图像表示学习方法,提出了一种最大化互信息的下界的目标函数,并在实验中发现选择难度更大的负样本以及视角可以提高算法性能。通过比较多种学习方法,研究结果表明,基于互信息的目标函数可以使得算法在分类、边界框检测、实例分割和关键点检测等任务上获得更好的表现。
May, 2020
为了解决 Vision and Language Models 对于细致的理解和 fine-grained 任务的挑战,本研究提出一种基于 intra-modal 和 cross-modal rank loss 的策略,该策略不需要额外的注释或参数,可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时,该方法在三个细粒度基准测试上显著提高了性能,并增强了 X-VLM 在细粒度推理上的表现。
Jun, 2023