利用栖息地信息进行细粒度鸟类识别

Dec, 2023

利用栖息地信息进行细粒度鸟类识别

Leveraging Habitat Information for Fine-grained Bird Identification

Tin Nguyen, Anh Nguyen

TL;DR将鸟类分类器与栖息地信息集成，通过卷积神经网络（CNNs）、视觉注意力机制（ViTs）和多模态 CLIP 模型对鸟类数据集进行训练，通过整合栖息地特征改进分类器准确度。

Abstract

Traditional bird classifiers mostly rely on the visual characteristics of birds. Some prior works even train classifiers to be invariant to the background, completely discarding the living environment of birds. Instead, we are the first to explore integrating →

bird classifiers habitat information cnns vits clip

发现论文，激发创造

利用大型语言模型演变可解释的视觉分类器

通过演化搜索算法和大语言模型的上下文学习能力，我们提出了一种能够发现解释性又具有辨识性的用于视觉识别的属性集合的新方法，并在五个细粒度的 iNaturalist 数据集上比最先进的基准方法提高了 18.4%，在两个 KikiBouba 数据集上提高了 22.2%。

Apr, 2024

更多上下文，少了干扰：基于推断和调节上下文属性的视觉分类

基于对人类视觉知觉过程的启示，本文提出了一种基于上下文属性的训练无需的两步式零样本分类方法 PerceptionCLIP，并通过实验证明其在泛化性能、群体鲁棒性和可解释性方面具有优势。

Aug, 2023

无需进一步训练即可将 CLIP 用于短语定位

利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Apr, 2022

主动开放字汇识别：让智能运动缓解 CLIP 限制

本研究针对活跃的开放词汇识别提出了一种新的代理方法，利用帧间和概念间相似性来引导代理运动和融合特征，从而在不依赖类别特定知识的情况下实现 53.3% 的开放词汇识别准确率，有效应对了视点和遮挡对模型性能的影响。

Nov, 2023

CLIP-Art: 微粒级艺术分类的对比式预训练

使用 CLIP 方法训练神经网络，实现了自由形式的艺术品描述和精细标签的学习，在计算机视觉和艺术品属性识别中具有较高实用价值，以 iMet 数据集为基础，使用自监督学习获得了有竞争力的结果。

Apr, 2022

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

使用科学论文数据训练 CLIP 模型

通过使用科学论文的文本 - 图像数据，该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升，表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。

Nov, 2023

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

简单而有效：CLIP 嵌入用于具身人工智能

通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型，在实现与物理机器人和虚拟模拟任务相关的领域，我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现，从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。

Nov, 2021

超越预训练目标检测器：图像字幕生成中的跨模态文本和视觉语境

本文提出了一种通过添加辅助输入以表示缺失信息（例如物体关系）来改进视觉描述模型的方法，并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中，该方法取得了良好的表现。

May, 2022