利用栖息地信息进行细粒度鸟类识别
通过演化搜索算法和大语言模型的上下文学习能力,我们提出了一种能够发现解释性又具有辨识性的用于视觉识别的属性集合的新方法,并在五个细粒度的 iNaturalist 数据集上比最先进的基准方法提高了 18.4%,在两个 KikiBouba 数据集上提高了 22.2%。
Apr, 2024
基于对人类视觉知觉过程的启示,本文提出了一种基于上下文属性的训练无需的两步式零样本分类方法 PerceptionCLIP,并通过实验证明其在泛化性能、群体鲁棒性和可解释性方面具有优势。
Aug, 2023
利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。
Apr, 2022
本研究针对活跃的开放词汇识别提出了一种新的代理方法,利用帧间和概念间相似性来引导代理运动和融合特征,从而在不依赖类别特定知识的情况下实现 53.3% 的开放词汇识别准确率,有效应对了视点和遮挡对模型性能的影响。
Nov, 2023
使用 CLIP 方法训练神经网络, 实现了自由形式的艺术品描述和精细标签的学习,在计算机视觉和艺术品属性识别中具有较高实用价值,以 iMet 数据集为基础,使用自监督学习获得了有竞争力的结果。
Apr, 2022
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
通过使用科学论文的文本 - 图像数据,该研究探索在特定领域内加入具有更高质量的有限数量数据是否能够提高 CLIP 模型的整体性能。小规模实验结果显示模型性能有中等程度的提升,表明使用该研究所考虑的数据来源来训练大规模 CLIP 模型是一个有价值的研究方向。
Nov, 2023
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型,在实现与物理机器人和虚拟模拟任务相关的领域,我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现,从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。
Nov, 2021
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
May, 2022