控制视觉 - 语言模型用于通用图像修复
采用强大的视觉语言模型和合成降解管道,通过基于扩散模型和后验采样策略的鲁棒训练,提高图片还原质量并解决特定数据集无法恢复模糊、缩放、噪声和 JPEG 压缩等不同降解方式的问题。
Apr, 2024
我们提出了一个概念简单但有效的多语言 CLIP 压缩框架,并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP,用于中文和英文环境。在零样本图像分类方面的综合实验表明,相比于现有的类似参数规模的模型,DC-CLIP 在英文环境中取得了优越的性能,在中文环境中表现出竞争性能,即使使用较少的训练数据。我们设计的训练机制证明了其有效性。
Apr, 2024
我们提出了一种无监督的对抗微调方案来获得强大的 CLIP 视觉编码器,从而在依赖于 CLIP 的所有视觉下游任务(VLM,零样本分类)中获得强大的鲁棒性。
Feb, 2024
本文提出了一种利用 CLIP 模型来提高图像去噪的对称编码器 - 解码器网络,并通过渐进特征增强策略来改善解码器的鲁棒性,实验证明该方法具有优越的泛化能力。
Mar, 2024
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
通过文本增强方法,不需要在对抗性示例上重新训练图像编码器,从而增强视觉 - 语言模型的稳健性,并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。
Nov, 2023
通过直接利用对比式语言 - 图像预训练模型 (CLIP) 在视频领域的强大表示能力和设计鲁棒的视频异常检测器,本文提出了 VadCLIP,一种弱监督视频异常检测范例,无需预训练和微调过程,通过双分支实现粗粒度和细粒度的视频异常检测,实验结果在两个常用基准上表现出色,超越了目前其他方法一大截。
Aug, 2023