CLIP 引导的无源目标检测在航空图像中
本文提出了一种基于生成伪标签和对抗学习技术的无源目标检测方法,将目标域划分为相似子集和不相似子集,并通过平均教师框架中的对抗模块来提高伪标签的质量,实验表明该方法在跨域目标检测方面表现优异。
Jan, 2023
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
我们提出了一种新的方法来充分利用伪标签,通过引入高和低置信度阈值,使用 Proposal Soft Training (PST) 和 Local Spatial Contrastive Learning (LSCL) 模块来利用低置信度的伪标签,进一步优化了代表性特征。实验证明,我们的方法在五个跨领域目标检测基准上表现优于以前的 Source-free object detection (SFOD) 方法,实现了最先进的性能。
Oct, 2023
本文通过在航拍图像中对现有少样本目标检测方法进行深入分析,发现自然图像和航拍图像之间存在较大的性能差距,导致的原因是航拍图像中小物体的数量较多。因此,本文提出了一种精心设计的注意力机制来改善少样本目标检测方法在小物体上的性能,并提出了一种自适应尺度框相似性准则,特别适用于小物体的训练和评估。同时,本文还通过度量学习和微调提出了两种用于通用少样本目标检测的不同方法,其中微调方法在处理诸如跨域少样本目标检测等更复杂场景方面取得了显著的成果。最后,针对在 COSE 系统中部署检测模型的需求,本文利用 TensorRT 等现有优化工具成功解决了在超大图像(超过 100 百万像素)中实时进行检测的工程挑战。
Oct, 2023
利用现代生成模型和多模态学习的组合潜能,本研究提出了一种完全自动化的框架,可对卫星图像上的目标进行检测。我们利用 CLIP(Contrastive Language-Image Pre-Training)的能力来将图像特征与文本描述相关联,并识别生成器网络中的神经元以构建即时目标检测器。
Oct, 2022
本研究旨在探索预训练视觉 - 语言模型(VLMs)在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略,并研究其在各种具有挑战性的场景下的性能。我们发现,与以往的观点不同,并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反,通过仅利用来自单个生成模型的少量示例图像,基于 CLIP 的检测器展现出了出乎意料的泛化能力,并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配,并在分布外数据的泛化能力(AUC 提高 6%)和受损 / 清洗数据的鲁棒性上实现了显著的改进(+ 13%)。我们的项目可以在此 https URL 找到。
Nov, 2023
提出了一种半监督学习方法 S-CLIP,利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练,采用两个伪标签策略,分别针对对比学习和语言模态,能够显著增强 CLIP 的训练,取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。
May, 2023
AnomalyCLIP 通过学习无关物体的文本提示来捕捉图像中的通常和异常,从而实现了对高度多样的物体数据集进行广义正常性和异常性识别的零样本卓越性能。
Oct, 2023
CLIPScope 是一种零样本 OOD 检测方法,通过类似 Bayesian 后验更新的方式归一化样本的置信度得分,并利用大型词汇数据库挖掘最远和最近于 ID 类的类标签,以最大化覆盖 OOD 样本,经过广泛的消融研究和实证评估,展示了 CLIPScope 在各种 OOD 检测基准中的最先进性能。
May, 2024