BIOCLIP:生命之树的视觉基础模型
通过融合图像、DNA 编码和文本数据的多模态方法,采用 CLIP 风格对比学习将其在统一的嵌入空间中对齐,实现对已知和未知昆虫物种的准确分类,无需特定任务微调;该方法在零样本学习任务中的准确度比单模态方法高出 11%,展示了其在生物多样性研究中的有效性。
May, 2024
RemoteCLIP 是第一个用于遥感领域的视觉 - 语言基础模型,利用数据扩充和转换方法进行预训练,可用于零样本分类、图像文本检索和物体计数等任务,并在 16 个数据集上均优于基线模型。
Jun, 2023
利用 100 万个开放源合成的眼底图像与自然语言描述,构建具有伦理基础的语言 - 图像模型 VisionCLIP,进行视网膜图像分析,并在零样本情况下在三个外部数据集上取得了竞争性能。
Mar, 2024
本文开发了一种 CLIP 风格的视网膜图像基础模型 RET-CLIP,该模型在 193,865 名患者的数据集上进行特训,能够在四个关键的诊断类别中优于现有基准,包括糖尿病视网膜病变,青光眼,多疾病诊断和多疾病的多标签分类。
May, 2024
本研究旨在探索预训练视觉 - 语言模型(VLMs)在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略,并研究其在各种具有挑战性的场景下的性能。我们发现,与以往的观点不同,并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反,通过仅利用来自单个生成模型的少量示例图像,基于 CLIP 的检测器展现出了出乎意料的泛化能力,并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配,并在分布外数据的泛化能力(AUC 提高 6%)和受损 / 清洗数据的鲁棒性上实现了显著的改进(+ 13%)。我们的项目可以在此 https URL 找到。
Nov, 2023
以数据筛选为核心的对比语言 - 图像预训练及元数据筛选的方法 MetaCLIP,在多个标准基准测试中优于 CLIP 以 CommonCrawl 为数据源的结果,MetaCLIP 在零样本 ImageNet 分类中达到 70.8% 的准确率,并在 1B 数据的情况下保持相同的训练预算达到 72.4% 的准确率。
Sep, 2023
本文提出了针对乳腺癌检测中计算机辅助诊断(CAD)的大型和多样化训练数据的不足问题,通过使用大规模图像文本数据集进行预训练,通过视觉 - 语言模型(如 CLIP)部分解决了计算机视觉中鲁棒性和数据效率的问题。我们首次提出了 Mammo-CLIP,使用大量乳腺癌筛查乳房矩阵报告对其进行了预训练,解决了数据集多样性和规模的挑战。我们在两个公共数据集上的实验证明了该方法在乳腺癌检测中对关键的分类和定位属性表现出了类似 CLIP 在计算机视觉中的数据效率和鲁棒性。此外,我们还提出了 Mammo-FActOR,一种新颖的特征归因方法,可以提供在乳腺病理学报告中基于句子级粒度的空间解释。代码可在公开网址 https://github.com/batmanlab/Mammo-CLIP 上获得。
May, 2024
通过使用科学论文的文本 - 图像数据,该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升,表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。
Nov, 2023
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
本文介绍了 CLIP-Driven Universal Model 模型,它基于 Contrastive Language-Image Pre-training 学习的文本嵌入,结合分割模型,可以分割 25 个器官和 6 种肿瘤,具有更高的泛化性能和更高的计算效率。
Jan, 2023