将 CLIP 模型转化为场景文字检测器

CVPRFeb, 2023

将 CLIP 模型转化为场景文字检测器

Turning a CLIP Model into a Scene Text Detector

Wenwen Yu, Yuliang Liu, Wei Hua, Deqiang Jiang, Bo Ren...

TL;DR该研究提出了一种名为 TCM 的新方法，通过直接应用 CLIP 模型来进行文本检测，而不需要预先培训过程。实验证明该方法有助于现有场景文本检测方法的少样本学习能力，并且具有良好的领域自适应能力。

Abstract

The recent large-scale Contrastive Language-Image pretraining (clip) model has shown great potential in various downstream tasks via leveraging the pretrained vision and language knowledge. Scene text, which cont

clip text detection pretraining few-shot training domain adaptation

发现论文，激发创造

将 CLIP 模型转变为场景文本识别器

通过使用大规模对比语言 - 图像预训练（CLIP）模型，我们将其转化为强大的骨干模型 FastTCM-CR50，从而提升场景文本检测和标记任务的能力。FastTCM-CR50 利用了 CLIP 中的视觉提示学习和交叉注意机制，提取图像和基于文本的先验知识。通过使用预定义和可学习的提示，FastTCM-CR50 引入了一种实例语言匹配过程，从而增强了图像和文本嵌入之间的协同作用，从而改进了文本区域的精确度。我们的双模态相似性匹配（BSM）模块提供了动态语言提示生成的功能，实现离线计算以提高性能。FastTCM-CR50 具有以下几个优点：1）它可以增强现有的文本检测器和标记器，分别使性能提高了 1.7％和 1.5％。2）它胜过了以前的 TCM-CR50 骨干模型，在文本检测和标记任务中分别提高了 0.2％和 0.56％，并且推理速度增加了 48.5％。3）它展现了强大的少样本训练能力。仅使用 10％的有监督数据，FastTCM-CR50 使文本检测和标记任务的性能分别提高了 26.5％和 5.5％。4）它在分布之外的文本检测和标记数据集上持续提升性能，特别是 ICDAR2019-ArT 的 NightTime-ArT 子集和用于定向物体检测的 DOTA 数据集。代码可以在此 https 网址上找到。

Aug, 2023

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

基于 CLIP 的图像到文本转换提升多模态理解能力

将输入图像转化为相应的文字解释是计算机视觉和自然语言处理领域中一个关键而复杂的过程，本文提出了一种创新的集成方法，利用对比式语言图像预训练模型的能力。

Jan, 2024

CLIP2Video: 通过 Image CLIP 掌握视频文本检索

CLIP2Video 网络通过将图像语言预训练模型转移到视频文本检索，采用端到端方式，区别于领先的视频和语言学习方法的多模态交互，我们利用预训练的图像语言模型，进一步简化为两个具体阶段的框架，使其能够在相对较少的数据集上进行训练，并通过 Temporal Difference Block 和 Temporal Alignment Block 来提升多模态相关性，我们在 MSR-VTT，MSVD 和 VATEX 等主要文本到视频和视频到文本检索基准上实现了最新的检索准确性记录。

Jun, 2021

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

CLIP-ViP：基于预训练图文模型的视频语言表示对齐

通过对数据规模和语言源域差异的研究，本文提出了一种基于 CLIP 的 OmniSource 跨模态学习方法，称为 CLIP-ViP，通过视频代理机制改进后续预训练 CLIP，从而实现显著提高视频 - 文本检索的性能。该方法在多个数据集上均取得了 SOTA 结果。

Sep, 2022

TaskCLIP：扩展大型视觉语言模型以用于任务导向的物体检测

通过使用大规模视觉和语言模型（VLM）作为模型骨干，以及基于 Transformer 的校准器，我们提出了 TaskCLIP，一个两阶段的设计用于任务导向的目标检测，实验结果表明我们的方法优于当前最先进的 TOIST 模型，并且只需要一张 NVIDIA RTX 4090 显卡进行训练和推理。

Mar, 2024

CLIP2Scene: 基于 CLIP 的高效场景理解

本文介绍了一种简单而有效的框架 CLIP2Scene，通过从二维预训练模型中转移知识到三维点云网络，利用语义和时空一致性正则化来预训练三维网络，实现了三维场景理解任务，并在多个数据集上进行了实验验证，其中包括无注释的 3D 语义分割，mIoU 在 nuScenes 和 ScanNet 数据集上分别达到了 20.8% 和 25.08%。

Jan, 2023

MobileCLIP: 多模态加强训练的快速图像 - 文本模型

在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计算开销，从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。

Nov, 2023