跨领域多模态少样本目标检测:基于丰富文本
本文介绍了一种基于多模态少样本学习的目标检测方法,使用视觉样本和分类语义信息来检测目标,通过元学习和提示学习相结合,在不需要微调的情况下建立通用少 / 零样本检测模型,同时引入知识蒸馏来解决针对稀有类别缺乏类名称先验知识的问题,通过在多个少样本数据集上的实验来验证该方法的有效性。
Apr, 2022
本研究致力于解决跨领域小样本目标检测(CD-FSOD)的挑战,提出了一种准确的对象检测器,用于具有最少标记示例的新领域。通过引入多个指标来量化域差异,并建立具有多样化域度量值的新的 CD-FSOD 基准,对一些最先进的开放式对象检测方法进行评估,结果表明,直接采用开放式检测器进行 CD-FSOD 会导致性能下降。“CD-ViTO” 通过引入多种新颖组件,包括微调、可学习的原型模块和轻量级注意力模块,旨在克服性能降级问题并回答提出的第二个问题。实验证明,我们的 CD-ViTO 在领域外和领域内目标数据集上均取得了令人印象深刻的结果,为 CD-FSOD 和 FSOD 建立了新的 SOTAs。所有数据集、代码和模型将向社区发布。
Feb, 2024
本文提出了一种新的基于 Fully Cross-Transformer 的模型 (FCT) 实现 few-shot 目标检测,通过在特征 backbone 和检测头中结合跨模块交互 attention,提高模型中不同表示层之间的相似性学习以达到更好的性能。在 PASCAL VOC 和 MSCOCO FSOD 基准测试上的实验验证了该模型的有效性。
Mar, 2022
提出了一个使用语义嵌入进行精细调整的少样本目标检测框架,通过使用语义相似性分类器,多模态特征融合和语义感知最大边界损失,解决了现有方法在极低样本场景中对新类别存在的分类混淆和性能下降问题。
Jun, 2024
本文提出了一个基于多领域的数据集的多领域少样本目标检测(MoFSOD)基准测试,以评估少样本算法的性能,并通过冻结层、不同体系结构和不同预训练数据集等方面的实验结果发现了多个影响少样本目标检测性能的关键因素,并提出了两种算法改进方法,在 MoFSOD 基准测试中实现 SOTA 表现。
Jul, 2022
该研究论文探索了多模态背景知识在开放词汇目标检测中的作用,并提出了一种多模态背景知识蒸馏框架,通过从多模态融合转换器中学习上下文知识并应用于学生检测器,取得了显著的提升。
Aug, 2023
本文提出一种新方法以应对跨域少样本目标检测面临的数据不足及误导等问题,该方法由自适应优化策略与多层次领域感知数据增强两部分构成,最终在多个基准测试中取得最优表现。
Sep, 2022
社交媒体误导信息对个人和社会有害,并且多模态内容(即文本和图像)使其更具 “可信度”,高于仅有文本的新闻报道。我们提出一种新颖的鲁棒领域与多模态方法(RDCM),用于多模态误导信息的检测,通过领域内对齐模块降低领域漂移,并通过跨模态对齐模块弥合两种模态之间的语义差距。在两个公开的多模态误导信息检测数据集(Pheme 和 Twitter 数据集)上的评估结果证明了该模型的优越性。
Nov, 2023
提出了一种基于元学习的 FSOD 模型,通过联合优化少样本提议生成和细粒度分类,采用轻量级的基于度量学习的原型匹配网络来提高少样本类别的提议生成,提出了一种注意力特征对齐方法来解决噪声提议与少量样本类别之间的空间失配问题。在多个 FSOD 基准上取得了最先进的性能。
Apr, 2021
本篇研究考虑在现实世界中具有类别不平衡的情况下进行 few-shot 目标检测(FSOD)。通过对印度驾驶数据集(IDD)进行实验,同时评估了基于度量学习和元学习的 FSOD 方法在同领域实验和对象样本稀少的实验中的表现。结果显示距离度量学习的方法在新颖的类上表现优于元学习。此外,本研究还证明了在真实世界的开放数据集中扩展目标类别是进行 few-shot 学习研究的有利方式。
Jan, 2021