LICO: 带有语言 - 图像一致性的可解释模型

Oct, 2023

LICO: 带有语言 - 图像一致性的可解释模型

LICO: Explainable Models with Language-Image Consistency

Yiming Lei, Zilong Li, Yangyang Li, Junping Zhang, Hongming Shan

TL;DR通过将可学习的语言提示与相应的视觉特征相关联，以粗到精的方式建立了一种用于可解释图像分类的语言图像一致性模型（LICO），通过最小化图像和语言特征分布之间的距离，建立了粗略的全球流形结构对齐，然后通过应用最优传输（OT）理论将局部特征图与类别特定的提示分配，从而实现细粒度的显著性图。广泛的实验结果表明，LICO 相对于现有的解释方法（如 Grad-CAM）在生成更可解释的注意力图方面取得了显著进展。值得注意的是，在推理期间，LICO 改进了现有模型的分类性能，并未引入任何计算开销。

Abstract

Interpreting the decisions of deep learning models has been actively studied since the explosion of deep neural networks. One of the most convincing interpretation approaches is →

deep learning models interpretation approaches salience-based visual interpretation language-image consistency model explanation methods

发现论文，激发创造

对比学习实现的一致性解释

该研究通过对 Grad-CAM 解释热图的对比自监督训练，提高了解释一致性，从而在限制数据的精细分类设置中提高了模型准确性，并允许非标记数据的训练。

Oct, 2021

PO-ELIC: 感知导向的高效学习图像编码

PO-ELIC 提出了一种感知导向的高效学习图像编码模型，通过采用对抗性训练技术，包括铰链形式的对抗损失、Charbonnier 式损失和样式损失，进一步提高学习图像压缩技术的感知品质，在更低的比特率下提供了与 HiFiC 相当的感知品质。

May, 2022

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

从少样本学习时的生成潜在条件隐式优化

通过利用一个小的数据集和一个生成模型 GLICO，本研究提出了一种学习少量样本的新方法，其可以使用生成模型从潜在空间生成出新的样本，并且取得了在图像分类方面与当前最先进的方法相比有所提升的实验结果。

Mar, 2020

LoCo：局部受限无训练布局到图像合成

本文中，我们提出了一种名为 LoCo 的无需训练的布局到图像合成方法，能够通过引入局部化注意约束和填充令牌约束，对个体对象进行精确定位并防止合成对象的不良融合，并成功地集成到现有的文本到图像和布局到图像模型中，在多个基准测试中定性和定量地超越了既有的最先进的无需训练的布局到图像方法，展示了我们方法的优越性。

Nov, 2023

利用图像理解的自我训练增强大型视觉语言模型

采用自我训练方法提高大型视觉语言模型在图像理解方面的能力，通过自动生成偏好图像描述来构建图像理解的偏好数据集，利用少量的现有数据进行自我改进，验证了其在七个不同基准测试中的有效性和潜力。

May, 2024

SILC：用自我蒸馏提升视觉语言预训练

基于对 CLIP 模型的改进，本研究提出了 SILC 方法，通过引入本地到全局对应学习来预训练模型，有效提升了计算机视觉领域中的分类、检索和分割等任务的性能，取得了零样本分类、少样本分类、图像与文本检索、无样本分割以及开放词汇分割等方面的最新技术成果。

Oct, 2023

模拟学者：具有图像扩散模型的即刻视觉环境学习

通过使用在图像修复中预训练的文本到图像扩散模型，我们提出了 Analogist 作为一种新颖的推理型视觉上下文学习方法，旨在利用视觉和文本提示技术，提高任务的泛化能力和上下文感知能力，从而在各种视觉任务中取得优越性能。

May, 2024

大规模视觉语言模型的视域内学习

通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Feb, 2024

从视觉语言模型中学习不变的因果机制

我们提出了 CLIP-ICM（Invariant Causal Mechanism of CLIP）算法，该算法旨在通过干预数据来可靠地识别不变的潜在因素，并在各个领域中实现准确的预测。理论分析表明，我们的方法在分布外（OOD）场景中具有较低的泛化下界，实验结果展示了 CLIP-ICM 的卓越性能。

May, 2024