基于 CLIP 的场景文本识别的对称语言特征提取

MMOct, 2023

基于 CLIP 的场景文本识别的对称语言特征提取

Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition

Zixiao Wang, Hongtao Xie, Yuxin Wang, Jianjun Xu, Boqiang Zhang

TL;DR利用对比语言图像预训练（CLIP）模型在场景文本识别（STR）中的潜力，我们建立了一个新的对称语言特征提取框架（称为 CLIP-OCR），以充分利用 CLIP 中的视觉和语言知识。通过将 CLIP 图像编码器与反转的 CLIP 文本编码器级联，我们构建了一个对称结构，其中包括了从图像到文本的特征传递流，覆盖了视觉和语言信息的提取。实验表明，CLIP-OCR 在六个流行的 STR 基准测试上的平均准确率达到 93.8%。

Abstract

In this paper, we explore the potential of the Contrastive Language-Image Pretraining (clip) model in scene text recognition (STR), and establish a novel →

clip scene text recognition symmetrical linguistic feature distillation distillation strategy linguistic consistency loss

发现论文，激发创造

CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

介绍了 CLIP4STR，一种基于 CLIP 的简单而有效的场景文字识别方法，通过图像和文本编码器构建，具有双预测和精炼解码机制。实验表明，该方法在 11 个 STR 基准测试中达到了最新的最佳性能。

May, 2023

CyCLIP: 循环对比语言 - 图像预训练

介绍了一种改进的对比表示学习框架 CyCLIP，通过显式对图像和文本空间的几何一致性进行优化，提高了模型的一致性和表现在零样本分类和分布不变性方面。在标准基准测试中，与 CLIP 相比，零样本分类准确率和对自然分布变化的鲁棒性分别提高了 10%-24% 和 10%-27%。

May, 2022

CLIP 模型是一个高效的在线终身学习者

在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining，CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性，并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性，此外还评估了终身学习对 CLIP 的泛化能力的影响，并发现调整图像编码器对终身学习有益，而调整文本编码器有助于零样本学习。

May, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

使用知识蒸馏和自训练提高 CLIP 的鲁棒性

利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性，该技术利用 CLIP 生成的伪标签以及自训练策略进行训练，无需注释数据，能够增强模型在真实场景中应对多种不确定性和挑战的能力，并在各种数据集上实现了 SOTA 结果

Sep, 2023

增强 CLIP 的改进视觉语言推理

通过使用不同的图像参数化方法，利用生成模型和巧妙设计的蒸馏目标，我们提出了一种轻量级而高效的方法 SDS-CLIP，来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。

Jul, 2023

CLIP-TD：针对视觉语言任务的 CLIP 目标蒸馏

本研究提出了一项名为 CLIP-TD 的方法，对视觉 - 语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的 CLIP-TD 在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

MaskCLIP：屏蔽自蒸馏提升对比度语言 - 图片预训练

该文介绍了一个名为 MaskCLIP 的简单而又有效的框架，将一种新提出的掩码自蒸馏方法融入了对比语言 - 图像预训练中。该框架主要利用掩码自蒸馏方法学习局部信息传递，这对文本相关表示的对比学习起到补充作用，并且一定程度上能够从自然语言中得到间接监督。同时，在文本分支中也引入了局部语义监督来提高预训练性能，这个框架在不同的任务中取得了很好的效果。

Aug, 2022

S-CLIP: 使用少量特定字幕的半监督视觉 - 语言预训练

提出了一种半监督学习方法 S-CLIP，利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练，采用两个伪标签策略，分别针对对比学习和语言模态，能够显著增强 CLIP 的训练，取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。

May, 2023

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024