- 日常生活互动活动的少样本分类(InteractADL)
提出了一个新的数据集和基准 InteractADL,用于理解涉及人(和物体)之间互动的复杂 ADL,并提出了一种用于细粒度少样本视频分类的新方法 Name Tuning,该方法通过学习优化类别名称向量,使语义可分离,展示了在 Interac - RAR: 检索与排序增强型 MLLM 用于视觉识别
CLIP 和 Multimodal Large Language Models(MLLMs)在识别广泛的候选人方面具有优势,RAR 结合了两种方法的优点,并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零 - LoDisc: 全局 - 本地辨别特征的自监督细粒度视觉识别学习
通过自监督局部微观对比学习任务,将细微的局部特征学习融合到全局自监督对比学习中,形成一个纯自监督的全局 - 局部微细对比学习框架,从而有效提高了细粒度图像特征表示的品质。
- ICLR用大型语言模型实现细粒度视觉识别的民主化
使用大型语言模型作为代理,FineR 在语义细分类别推理方面体现出更好性能,优于几种先进的 FGVR 和语音与视觉助手模型,并展示了在野外和新领域中工作的潜力。
- M2Former:多尺度细粒度视觉识别的补丁选择
提出了一种多尺度补丁选择 (MSPS) 方法,以改善现有基于 Vision Transformers 的模型的多尺度能力。通过在多尺度 Vision Transformer 上的不同阶段选择不同尺度的显著补丁,并引入类令牌传递 (CTT) - 计算机视觉中本地机制的最新进展:近期研究的调查和展望
本文系统回顾了各种视觉任务和方法的局部机制,包括细粒度视觉识别、人物再识别、少量 / 零样本学习、多模态学习、自我监督学习、视觉 Transformer 等,总结了每个领域局部机制的分类,并对每个类别的优缺点进行了深入分析,留有探索空间。 - CVPR学习共同理由,提高自监督表示在细粒度视觉识别问题中的表现
本文提出了一种名为 common rationales 的机制,将其作为特征筛选机制来增强自监督学习方法在细粒度图像识别任务中的效果,并表明该方法在四种视觉任务中均取得了显著的改进。
- ECCV通过自我增强注意机制提高低数据情况下的细粒度视觉识别
本文提出了自我增强注意力机制的方法,针对少样本学习情况下细粒度视觉识别的问题,在学习中生成注意力地图用于特征提取,实现对样本之间和分类之间共享的关键区域的专注,得到了在低数据情况下明显提高的结果。
- CVPR未见过物种的少样本关键点检测与不确定性学习
本研究提出了一种名为 “FSKD” 的方法,它利用少量标注样本可以对未知物种进行基准点和新关键点的检测。该方法包含主要和辅助基准点表示学习、相似性学习、基准点本地化不确定性建模等步骤,并引入了多元高斯分布来利用邻近基准点之间的隐式相关性。方 - 利用双重排名统计和相互知识蒸馏进行新型视觉类别发现
本文提出一种基于双分支学习架构的方法,通过对已标记数据的局部信息和整体特征进行双重排序统计来对未标记数据生成伪标签,提高视觉分类发现的性能,在多个基准数据集上测试均取得了最佳表现。
- CVPR可解释准确的细粒度识别:区域分组方法
本研究提供了一种可解释的深度模型,通过在深层神经网络中将基于区域的部件发现和归因结合起来实现细粒度视觉识别,并通过图像级对象标签进行训练,可以有效地识别图像中的对象部件,提高细粒度识别和对象部件定位的准确性。
- 层次双线性池化用于细粒度视觉识别
本文提出了一种新颖的模型,使用交叉层双线性池化和分层双线性池化框架来帮助解决细粒度视觉识别的问题,同时在细粒度识别数据集上达到了最先进水平。
- 在细粒度视觉识别中引入类内差异
本研究以图像识别为课题,使用 Group Sensitive TRiplet Sampling 方法并融合 intra-class variance 到深层度量学习模型的 triplet 损失函数中,以提高 fine-grained vis - ICLR自适应密度判别度量学习
本文针对之前的距离度量学习算法中存在的一些问题,提出了一种通过分布模型在表示空间中自适应评估相似性,并通过惩罚类别分布重叠实现局部判别的新方法,在多项任务上取得了最新的分类结果,并提高了所学表示的属性集中度和层次恢复能力。
- 双线性卷积神经网络用于细粒度视觉识别
该论文提出了一种称为 Bilinear 卷积神经网络(B-CNNs)的神经网络模型,通过使用两个卷积神经网络所提取的特征的外积计算来表示图像,并以平移不变的方式捕捉局部特征交互,并在多项图像分类数据集上展示了其在识别精度和速度等方面的优越性