CLOP：基于视频和语言的预训练模型，带有知识规范化

MMNov, 2022

CLOP：基于视频和语言的预训练模型，带有知识规范化

CLOP: Video-and-Language Pre-Training with Knowledge Regularizations

Guohao Li, Hu Yang, Feng He, Zhifan Feng, Yajuan Lyu...

TL;DR本文提出了一种基于知识正则化的跨模态预训练方法 (CLOP)，利用结构性知识如对象感知和知识引导的采样进行多模态关联的去除，实现了泛化表示的显著提升。

Abstract

video-and-language pre-training has shown promising results for learning generalizable representations. Most existing approaches usually model video and text in an implicit manner, without considering explicit structural representations of the multi-modal content. We denote such form o

video-and-language pre-training structural knowledge cross-modal representation space contrastive learning knowledge regularizations

发现论文，激发创造

Structure-CLIP: 使用结构信息增强多模态语言表示

本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP，它利用场景图实现对细粒度语义信息的关注，结合结构知识来提高多模态语言表示的表示能力，并在不同的下游任务中得到了最先进的表现。

May, 2023

RWKV-CLIP：一个稳健的视觉 - 语言表示学习器

通过扩展数据集和模型架构，该研究进一步探索了具有对比语言 - 图像预训练（CLIP）的视觉语言任务的性能，在处理来自网站的图像 - 文本对时。通过引入多样化的描述生成框架，该研究提出了 RWKV-CLIP，其中结合了变压器的有效并行训练和循环神经网络的高效推理。通过广泛的实验和多种模型规模和预训练数据集，证明了 RWKV-CLIP 是一个强大而有效的视觉语言表征学习器，在线性探测、零样例分类和零样例图像 - 文本检索等多个下游任务中实现了最先进的性能。

Jun, 2024

通过多知识表示优化视觉语言模型的提示学习

Context Optimization with Multi-Knowledge Representation (CoKnow) enhances Prompt Learning for VLMs by addressing the lack of diversity in prompt templates, resulting in improved performance compared to previous methods.

Apr, 2024

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

Prompt Switch: 高效的 CLIP 适应文本 - 视频检索

该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法，通过将一个空间 - 时间上下文模块引入图像编码器，并通过辅助视频字幕目标进行训练，以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略，取得了三个基准数据集（MSR-VTT，MSVD 和 LSMDC）的最先进性能。

Aug, 2023

使用检索增强的知识，学习定制的视觉模型

提出一种名为 REACT 的框架用于获取相关网络知识以构建目标领域的定制视觉模型。该框架通过检索与预训练数据集最相关的图像 - 文本对作为外部知识源，并仅训练新的模块化块，冻结所有原始权重，证明了其在零、少、全样本设置下显著提高了分类、检索、检测和分割任务的成功率。

Jan, 2023

对比交叉模态知识共享预训练用于视觉语言表示学习和检索

本研究提出了一种名为 COOKIE 的对比交叉模态知识共享预训练方法，采用传统的双流结构并结合两个有效的模块实现文本 - 图像联合表征，旨在提高跨模态检索的计算效率和统计指标。

Jul, 2022

Multi-CLIP：针对 3D 场景中问答任务的对比视觉语言预训练

本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型，可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。

Jun, 2023

使用知识蒸馏和自训练提高 CLIP 的鲁棒性

利用 LP-CLIP 技术通过引入一个线性探测层来提高 CLIP 的鲁棒性，该技术利用 CLIP 生成的伪标签以及自训练策略进行训练，无需注释数据，能够增强模型在真实场景中应对多种不确定性和挑战的能力，并在各种数据集上实现了 SOTA 结果

Sep, 2023