CLIP 模型暗中是一种图像到提示的转换器
该研究提出了一种名为 DiffusionCLIP 的新方法,该方法使用扩散模型进行文本驱动的图像操作,比现有基线表现更为优异,并允许简便的多属性操作。
Oct, 2021
本文提出了一种新的预训练框架 DiffCLIP,其结合稳定扩散和 ControlNet,以减小视觉分支中的域间差异,并引入了一种样式提示生成模块,用于少样本任务,在 ModelNet10、ModelNet40 和 ScanObjectNN 数据集上进行广泛实验,表明 DiffCLIP 具有强大的 3D 理解能力。使用稳定扩散和样式提示生成,DiffCLIP 在 ScanObjectNN 的 OBJ_BG 数据集上实现了 43.2%的零样本分类精度,这是最先进的技术水平,并且在 ModelNet10 上实现了 80.6%的零样本分类精度,这与最先进的技术水平相当。
May, 2023
预测生成式扩散模型所生成图像的文本提示,采用联合回归和多标签词汇分类目标的新型学习框架,结合白盒和黑盒模型解决生成文本提示的问题,并通过课程学习和领域自适应核学习方法进一步改进。实验结果表明,该学习框架在预测文本提示任务上取得了出色的结果,尤其在白盒模型上应用时效果最好,并发现在生成文本到图像时将该模型用于回收训练能够使生成的图像与输入提示更好地对齐。
Aug, 2023
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
以生成模型为基础,提出了一种用于图像生成提示的低成本方法,在无需大量标注数据的情况下生成文本提示,并将方法划分为在线和离线两个阶段。所提出的系统由离线任务和在线任务两个主要部分组成,具有最高的度量值 0.612,比 Clip、Clip + KNN(前 10)分别高出 0.013、0.055、0.011。
Jan, 2024
在线终身学习 (OLL) 研究了从连续和非恒定数据流中学习的挑战。通过对视觉 - 语言模型 (如 Contrastive Language-Image Pretraining,CLIP) 进行参数高效调整 (PET) 的在线终身学习方法显示了对图像和文本之间的对称性的重要性,并且引入了 Symmetric Image-Text (SIT) 调整策略。通过梯度分析的实验证明了 SIT 的有效性,此外还评估了终身学习对 CLIP 的泛化能力的影响,并发现调整图像编码器对终身学习有益,而调整文本编码器有助于零样本学习。
May, 2024
本文提出了一种框架,通过使用 CLIP 的预训练知识的隐式和显式方法来进行密集预测,是一种模型不可知的方法,可应用于任意密集预测系统和各种预训练视觉 Backbones,包括 CLIP 模型和 ImageNet 预训练模型,实证实验表明,我们的方法在语义分割,目标检测和实例分割任务上具有优越的性能。
Dec, 2021
本篇研究发现,使用自然语言的方式来训练 Contrastive Language-Image Pretraining (CLIP) 的文本编码器,能够更好地实现短语的理解,甚至能够在正确的提示下,显著优于流行的语言模型,有效地提升实体聚类和扩展任务的效果。
Oct, 2022
该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法,通过将一个空间 - 时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD 和 LSMDC)的最先进性能。
Aug, 2023
本文提出 CLIP-benchmark,对 CLIP 及其变种进行评估、分析和基准测试,并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。
Mar, 2022