控制视觉 - 语言模型用于通用图像修复

Oct, 2023

控制视觉 - 语言模型用于通用图像修复

Controlling Vision-Language Models for Universal Image Restoration

Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sjölund, Thomas B. Schön

TL;DR我们提出了一种降级感知的视觉 - 语言模型（DA-CLIP），用于将预训练的视觉 - 语言模型应用于低级视觉任务，作为通用的图像恢复框架，通过集成嵌入到图像恢复网络中并进行交叉注意力，使模型能够学习高保真度的图像重建。

Abstract

vision-language models such as clip have shown great impact on diverse downstream tasks for zero-shot or label-free predictions. However, when it comes to →

vision-language models clip low-level vision image restoration degradation-aware vision-language model

发现论文，激发创造

在野外应用具有控制能力的视觉语言模型进行照片逼真图像修复

采用强大的视觉语言模型和合成降解管道，通过基于扩散模型和后验采样策略的鲁棒训练，提高图片还原质量并解决特定数据集无法恢复模糊、缩放、噪声和 JPEG 压缩等不同降解方式的问题。

Apr, 2024

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024

强大的 CLIP：用于强大的大规模视觉 - 语言模型的无监督对抗微调的视觉嵌入

我们提出了一种无监督的对抗微调方案来获得强大的 CLIP 视觉编码器，从而在依赖于 CLIP 的所有视觉下游任务（VLM，零样本分类）中获得强大的鲁棒性。

Feb, 2024

基于 Transfer CLIP 的通用图像去噪

本文提出了一种利用 CLIP 模型来提高图像去噪的对称编码器 - 解码器网络，并通过渐进特征增强策略来改善解码器的鲁棒性，实验证明该方法具有优越的泛化能力。

Mar, 2024

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

CLAP：对预先训练的视觉语言模型鲁棒性的增强提示对比学习

通过文本增强方法，不需要在对抗性示例上重新训练图像编码器，从而增强视觉 - 语言模型的稳健性，并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。

Nov, 2023

VadCLIP: 适应弱监督视频异常检测的视觉语言模型

通过直接利用对比式语言 - 图像预训练模型 (CLIP) 在视频领域的强大表示能力和设计鲁棒的视频异常检测器，本文提出了 VadCLIP，一种弱监督视频异常检测范例，无需预训练和微调过程，通过双分支实现粗粒度和细粒度的视频异常检测，实验结果在两个常用基准上表现出色，超越了目前其他方法一大截。

Aug, 2023