通过引导裁剪实现零样本视觉分类
基于预训练视觉 - 语言模型的 Cascade-CLIP 方法,在零样本语义分割任务中通过引入一系列独立解码器,以级联方式将多层次的视觉特征与文本嵌入对齐,取得了优秀的性能。
Jun, 2024
本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题,此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分,并且可以提高图像识别率和生成图像的质量。同时,研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。
Apr, 2022
通过视角选择和分层提示的策略,本研究旨在改进预训练模型在零样本三维形状识别中的信心,实现无需额外训练的令人印象深刻的分类准确性。
Nov, 2023
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
本文实证表明,CLIP 通过利用语言的能力可以成为强大的视觉 - 语言少样本学习器。我们评估了 CLIP 在典型的视觉问答任务和视觉蕴含任务的零样本性能,并提出了一种参数有效的微调策略,以提高少样本性能,最终取得了有竞争力的零样本 /few-shot 结果。
Mar, 2022
RegionCLIP 是一种新的方法,扩展了 CLIP 模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
Dec, 2021
AutoCLIP 是一种自动调整零样本分类器的方法,通过根据推理时间的类描述符 - 图像相似性统计导出每个图像的每个提示模板的权重,并展示在广泛的视觉语言模型、数据集和提示模板中,AutoCLIP 始终稳定地优于基线,并提高了多达 3 百分点的准确性。
Sep, 2023
本文通过引入多模态模型 (CLIP),提出了一种基于文本检索的机制,通过挖掘带标签和无标签文本库中的文本描述来实现联合图像 + 文本半监督聚类,该方法在多个数据集上得到了最优结果。
May, 2023
本文提出了一种简单而有效的基线方法,将 CLIP 中的视觉语言知识在特征和输出层面上转移到点云编码器,从而在零样本点云语义分割中取得了显著的性能提升,并在无标注点云语义分割设置中取得了有希望的结果,展示了其在标签效率学习方面的巨大潜力。
Dec, 2023
基于对人类视觉知觉过程的启示,本文提出了一种基于上下文属性的训练无需的两步式零样本分类方法 PerceptionCLIP,并通过实验证明其在泛化性能、群体鲁棒性和可解释性方面具有优势。
Aug, 2023