PEEB：基于部件的图像分类器与可解释与可编辑的语言瓶颈

Mar, 2024

PEEB：基于部件的图像分类器与可解释与可编辑的语言瓶颈

PEEB: Part-based Image Classifiers with an Explainable and Editable Language Bottleneck

Thang M. Pham, Peijie Chen, Tin Nguyen, Seunghyun Yoon, Trung Bui...

TL;DR基于 CLIP 的分类器依赖包含文本编码器已知的 {类别名称} 的提示。我们提出了 PEEB - 一种可解释和可编辑的分类器，用于从视觉部分的文本描述符提取类别名称并进行匹配，以计算分类的逻辑得分。在类别名称未知的零样本设置中，PEEB 的性能远远超过 CLIP（准确率提升了约 10 倍）。与基于部分的分类器相比，PEEB 不仅在监督学习设置下达到了最先进水平（准确率达到 88.80%），而且还首次实现了用户编辑类别定义以形成新分类器而无需重新训练。与概念瓶颈模型相比，PEEB 在零样本和监督学习设置下也达到了最先进水平。

Abstract

clip-based classifiers rely on the prompt containing a {class name} that is known to the text encoder. That is, CLIP performs poorly on new classes or the classes whose names rarely appear on the Internet (e.g., scientific names of birds). For →

clip-based classifiers peeb fine-grained classification zero-shot setting editable classifier

发现论文，激发创造

CLIP-EBC: 通过增强的区块分类实现准确计数的 CLIP 算法

通过引入改进的分块分类 (EBC) 框架，本研究使用 CLIP 模型进行人群计数，并能生成密度图，实验结果显示该方法在各种数据集上展现了最先进的性能，其中 EBC 可以使现有模型的准确率提高至 76.9%，而 CLIP-EBC 模型在上海科技部分 A 和部分 B 数据集上的平均绝对误差分别为 55.0 和 6.3。

Mar, 2024

NLLB-CLIP – 在预算内训练高性能多语言图像检索模型

通过有限的预算，我们尝试解决多语言图像检索的挑战性任务，展示出使用 NLLB-CLIP 模型的训练结果，该模型在低资源语言上的质量与最先进模型相媲美且明显优于它们。

Sep, 2023

无 Token 留存：可解释性辅助的图像分类与生成

本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题，此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分，并且可以提高图像识别率和生成图像的质量。同时，研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。

Apr, 2022

使用 CLIP 的增量目标检测

通过使用 CLIP 等语言 - 视觉模型生成不同类别集合的文本特征嵌入来改善特征空间，用广义类别替换早期学习阶段中的不可用新类别，从而模拟实际增量情景，并使用 CLIP 图像编码器识别提议中的潜在对象并对其进行分类，通过修改提议的背景标签为已知类别并将框添加到训练集来缓解数据模糊性问题，我们在 PASCAL VOC 2007 数据集上评估了我们的方法，在各种增量学习设置中，我们的方法优于最先进的方法，特别是对于新的类别。

Oct, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

CLIP 模型是一个高效的在线终身学习者

在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining，CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性，并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性，此外还评估了终身学习对 CLIP 的泛化能力的影响，并发现调整图像编码器对终身学习有益，而调整文本编码器有助于零样本学习。

May, 2024

F-PABEE: 用于单标签和多标签文本分类任务的灵活耐心型早期退出

F-PABEE 方法通过在分类器进行预测，如果跨层预测分布连续相似，则提前退出，相对于之前最先进的 PABEE 早期退出方法更灵活，同时可以调整相似度分数阈值和耐心参数，通过实验证明，在单标签分类和多标签分类任务中，在 BERT 和 ALBERT 等不同 PLMs 上实现更快速的推理和更好的性能。

May, 2023

TagCLIP：提高开放式语料库语义分割的区分能力

本研究针对 CLIP 在像素级开放词汇学习任务中面临的输入像素误识别问题，提出了一种名为 TagCLIP 的改进方法，通过引入一种名为 trusty token 的可信标记，成功提高了现有模型的泛化容量。针对 PASCAL VOC 2012 和 COCO-Stuff 164K 两大数据集，TagCLIP 对于未知分类的 IOU 值均有显著提升。

Apr, 2023

E-CLIP: 通过 CLIP 实现高效标签的事件驱动开放式理解

提出了一种名为 E-CLIP 的框架，它通过引入新颖的事件编码器和文本编码器，以及原始图像编码器，采用层次三重对比对齐 (HTCA) 模块来优化相关性，实现三种模态之间的知识传递，并在 N-Caltech 数据集上在微调和少样本设置下将性能提升了 3.94% 和 4.62%。此外，E-CLIP 可以灵活地扩展到使用文本或图像查询的事件检索任务。

Aug, 2023

ECO: 基于集成上下文优化的视觉语言模型

通过学习图像分类的一系列提示信息，我们证明了与仅仅依赖一个可训练提示相比，学习多样和可能更短的上下文能够在推理时间不增加额外成本的情况下显著和一致地提高结果，在 11 个不同基准测试中显示了我们方法的能力。

Jul, 2023