文本与图像人物再识别的提示解耦
提出了一种基于 CLIP 驱动的细粒度信息挖掘框架 (CFine),旨在为 TIReID 提供强大的多模态知识,通过细粒度信息挖掘,建立跨模态对齐,并在多个基准测试上显示了其优越的性能。
Oct, 2022
這項研究旨在將大規模預先訓練的視覺語言模型,如對比語言 - 圖像預訓練(CLIP),適應各種監督設置下物體再識別(Re-ID)的表現提升。在本研究中,我們首先分析了 CLIP-ReID 中 prompt learning 的作用並確認了其限制。基於我們的調查,我們提出了一種簡單而有效的方法,通過使用原型對比學習(PCL)損失直接微調 CLIP 的圖像編碼器,從而消除了 prompt learning 的需要。在人物和車輛 Re-ID 數據集上的實驗結果證明了我們的方法與 CLIP-ReID 的競爭力。此外,我們將基於 PCL 的 CLIP 微調方法擴展到無監督場景,達到了最新的表現。
Oct, 2023
本文提出了一种利用 CLIP 模型的文本 - 图像交互能力来解决细粒度图像重识别问题的方法,通过对学习的文本编码器给出模糊的文本描述来增强视觉表示,并通过一系列基于对比度损失的优化训练来优化文本令牌。
Nov, 2022
提出了一种基于 CLIP 的无文本学习框架,用于基于视频的人员重新识别,通过提取身份特定的序列特征作为 CLIP-Memory,并使用 SSP 模块在线更新 CLIP-Memory,进一步通过 TMD 模块捕获时间信息,取得了比其他最先进方法更好的结果。
Dec, 2023
该论文介绍了一种面向文本到图像人物重识别任务的统一预训练方法 (UniPT),通过构建大规模的文本标注人物数据集、使用视觉 - 语言预训练框架来对齐图像和文本模态的特征空间,解决了数据不一致性和训练不一致性的问题。UniPT 在多个数据集上取得了有竞争力的准确率。
Sep, 2023
此篇论文提出了一种名为 Prompt-Free Diffusion 的图像合成框架,该框架基于仅视觉输入,不需要文本提示就能生成新图像,其核心架构是语义上下文编码器 (SeeCoder),该框架在图像合成方面表现出色,不仅在基于示例的合成方法方面优于先前的方法,在遵循最佳实践的提示下,也能与最先进的 T2I 模型相媲美。
May, 2023
本文提出了一种基于编码器的文本到图像(T2I)个性化生成方法,使用一种对领域不敏感的对比度正则化技术来实现目标概念特征的高保真度,并将预测的嵌入值保持在可编辑的潜在空间区域,从而实现了基于 CLIP(一种联合学习图像和文本的新型表示方法)标记的最短距离。实验结果证明了我们方法的有效性和学习标记比未规范化模型预测的标记更具语义性的优点,并且比以前的方法更加灵活,表现出最先进的性能。
Jul, 2023
TIPCap 是一种基于文本数据的交互提示的图像标题生成方法,通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异,并在生成标题之前引入可选的提示信息,优于其他弱监督或无监督的图像标题生成方法,并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。
Mar, 2024
通过引入一个简单的微调方法,我们提出了一种改进 CLIP 模型对于释义的表征的方法,该方法使用大规模语言模型从 Web 规模的图像字幕中自动创建两类释义,并在固定图像编码器的同时微调 CLIP 文本编码器。我们的模型 ParaCLIP 在各种任务中都显示出与基准 CLIP 模型相比的显著改进,包括释义检索、Visual Genome 关系和属性,以及七个语义文本相似度任务。
Feb, 2024
通过在 Continual Learning 中引入 Prompt-tuning 方法,以更稳定的选择策略和适应机制,提出了一种能够优于最先进的方法的新模型,即使在与预训练模型存在显著领域差异的数据集上也适用。
Mar, 2024