BERT-style 和 CLIP-style 文本编码器的差异

ACLJun, 2023

BERT-style 和 CLIP-style 文本编码器的差异

On the Difference of BERT-style and CLIP-style Text Encoders

Zhihong Chen, Guiming Hardy Chen, Shizhe Diao, Xiang Wan, Benyou Wang

TL;DR本文分析了 BERT-style 和 CLIP-style 文本编码器之间的差异，发现尽管对于通用文本理解任务，CLIP-style 文本编码器表现不如 BERT-style 文本编码器，但它们具备跨模态联想的独特能力，更类似于人类的感官。

Abstract

masked language modeling (MLM) has been one of the most popular pretraining recipes in natural language processing, e.g., BERT, one of the representative models. Recently, contrastive language-image →

masked language modeling pretraining clip text encoders cross-modal association

发现论文，激发创造

CLIP 也可以理解文本：通过提示进行短语理解

本篇研究发现，使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器，能够更好地实现短语的理解，甚至能够在正确的提示下，显著优于流行的语言模型，有效地提升实体聚类和扩展任务的效果。

Oct, 2022

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

对比交叉模态模型的语言编码器

对比交叉模态模型如 CLIP 和 CLAP 对视觉 - 语言（VL）和音频 - 语言（AL）任务有所帮助，本篇研究评估了无监督和监督的句子嵌入训练对语言编码器质量和交叉模态任务性能的影响，发现句子嵌入训练有助于提高对比 VL 模型的性能，但在 AL 预训练中效果较少，可能是由于预训练数据量有限所致。通过对表示空间的分析，句子嵌入训练改善了文本空间的均匀性，但降低了交叉模态对齐性。

Oct, 2023

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

对比视觉语言预训练中的标题多样性建模

我们介绍了一种新的图像预训练模型 Llip，它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力，并通过条件化输入信息来生成更丰富的视觉表示，相较于 CLIP 等基线模型，在多项任务上都有更好的性能表现，包括零样本分类和零样本检索。

Apr, 2024

用两步重述细调 CLIP 文本编码器

通过引入一个简单的微调方法，我们提出了一种改进 CLIP 模型对于释义的表征的方法，该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义，并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进，包括释义检索、Visual Genome 关系和属性，以及七个语义文本相似度任务。

Feb, 2024

对比视觉语言模型中的文本编码器是性能瓶颈

通过创建 CompPrompts 数据集的方法，研究了视觉 - 语言模型的编码模式对语言信息的损失情况，并提出了基于文本恢复的方法和 ControlledImCaps 评估基准，发现文本恢复能力与模型适用于呈现目标属性关系、计数、否定和多目标交互等复合要素的能力相关性强，并表明这是对偶视觉 + 语音模型的必要条件。

May, 2023

大语言模型驱动的文本到图像生成的实证研究与分析

本研究探讨使用大型语言模型作为文本编码器，在文本到图像生成中提高语言理解能力，并提出了一种高效三阶段训练流程以整合已有的文本到图像模型和大型语言模型，通过轻量级适配器实现快速训练，并证明实验结果在多语言和长输入环境下获得了优秀的图像生成质量。

May, 2024