图像文字表示的多模态信息瓶颈归因的视觉解释

Dec, 2023

图像文字表示的多模态信息瓶颈归因的视觉解释

Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution

Ying Wang, Tim G. J. Rudner, Andrew Gordon Wilson

TL;DR通过多模态信息瓶颈（M2IB）方法，本文提出了一种改进视觉 - 语言预训练模型的可解释性的方法，学习将相关视觉和文本特征保留并压缩无关信息的潜在表示。在安全关键领域如医疗保健中应用 M2IB，展示了其在视觉 - 语言预训练模型的归因分析上提高了归因精确度和可解释性的效果。与常用的单模态归因方法不同，M2IB 不需要基准标签，因此可以在存在多模态但无基准数据的情况下审查视觉 - 语言预训练模型的表示效果。以 CLIP 为例，本文证明了 M2IB 归因的有效性，定性和定量地显示其在梯度、扰动和注意力等归因方法上的优越性。

Abstract

vision-language pretrained models have seen remarkable success, but their application to safety-critical settings is limited by their lack of interpretability. To improve the →

vision-language pretrained models interpretability multi-modal information bottleneck attribution analysis safety-critical domains

发现论文，激发创造

基于变分信息瓶颈的多模态实体与关系抽取增强

文章研究了多模态命名实体识别和多模态关系提取的方法，并提出了一种基于信息瓶颈的多模态表示学习方法，该方法在三个公共基准测试上取得了最先进的性能。

Apr, 2023

CLIPTrans：基于预训练模型的多模态机器翻译中的视觉知识迁移

本研究提出了 CLIPTrans 框架，通过简单地调整预训练的多模态 M-CLIP 和多语言 mBART 模型，使它们的嵌入空间对齐，并通过轻量级映射网络对 mBART 进行条件化。实验证明该框架的优点，并将标准基准提升了平均 2.67 个 BLEU 值。

Aug, 2023

多模态癌症生存预测的原型信息瓶颈化与解缚

多模态学习对癌症生存预测有重要影响，尤其是病理图像和基因组数据的整合。本文提出了一种新的框架，用于解决多模态数据中的冗余性问题，并在五个癌症基准数据集上进行了广泛实验，证明其在其他方法上的优越性。

Jan, 2024

通过信息瓶颈约束提升对抗迁移性

基于信息瓶颈理论，我们提出了一种名为 IBTA 的黑盒可传递对抗攻击的新框架，利用不变特征的进展。通过在等效攻击性能约束下减少对原始数据的敌对扰动依赖性，鼓励更多地依赖对分类有最大贡献的不变特征，从而增强对抗攻击的传递性。通过重新定义基于 IB 的传递攻击的优化，我们克服了不可优化的互信息挑战，并提出了一种简单高效的互信息下界 (MILB) 来逼近计算。此外，为了定量评估互信息，我们利用互信息神经估计器 (MINE) 进行了全面分析。我们在 ImageNet 数据集上的实验充分证明了 IBTA 和导出的 MILB 的效率和可扩展性。

Jun, 2024

单幅图像中的一切：大型多模态模型是图像学习器

该论文介绍了一种新的上下文学习机制 ——In-Image Learning（I²L），将示范示例、视觉线索和指令结合到一张图像中，以增强 GPT-4V 的能力，并通过图像处理、理解和推理能力来整合所有信息，从而避免了复杂图像的文本描述不准确、位置示范示例灵活、输入负担减少、避免多张图像和冗长文本的输入限制等优势。通过引入自动策略选择适当的 ICL 方法，我们进一步整合了不同 ICL 方法的优势，对 MathVista 和 Hallusionbench 进行了实验，测试了 I²L 在复杂多模态推理任务中的有效性以及对语言幻觉和视觉错觉的缓解作用，并探讨了图像分辨率、示范示例数量和位置对 I²L 有效性的影响。我们的代码公开可用于此 https 网址。

Feb, 2024

通过多视角信息瓶颈学习强大的表示

本文提出了基于信息瓶颈原理的多视角无监督学习方法，通过对同一实体的两个视角进行对比得出冗余信息，进而定义新的多视角模型，在 Sketchy 数据集和 MIR-Flickr 数据集的标签受限版本上取得了最先进的结果；此外还通过数据扩增技术将理论扩展至单视角情况，实验证明更具有良好的泛化能力。

Feb, 2020

动态多模态信息瓶颈的多模态分类

利用多模态数据，在医学诊断和预测任务中有效利用各种图像、实验室测试和临床信息的人工智能技术正在发展。本研究通过研究现有方法对数据冗余和噪声的鲁棒性，提出了一种广义的动态多模态信息瓶颈框架，用于获得稳健的融合特征表示。通过大量实验证明，我们的方法超越了现有技术，在存在大规模噪声通道时仍然具有优越性能。

Nov, 2023

使用深度变分信息瓶颈方法解释黑盒

本研究提出了一种系统无关的解释模式，即采用信息瓶颈原理作为准则来寻找在简洁性和全面性方面都具备的关键特征，并在三个数据集上评估了其可解释性和保真度。

Feb, 2019

基于 CLIP 的图像到文本转换提升多模态理解能力

将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程，本文提出了一种创新的集成方法，利用对比式语言图像预训练模型的能力。

Jan, 2024

确定性多视角聚类的可微信息瓶颈

通过拟合互信息的规范化核格拉姆矩阵，我们提出了一种新的可微信息瓶颈方法 (DIB)，通过确定性和解析的方式有效地进行多视角聚类，实现了输入变量从不同视角的确定性压缩。

Mar, 2024