Nov, 2023

摄像陷阱图像中零样本动物物种识别的多模态基础模型

TL;DR通过减少对昂贵的标记数据的依赖,我们提出了一种新的零样本物种分类方法 WildMatch,该方法使用多模态基础模型,利用人们熟悉的术语生成摄像机陷阱图像的详细视觉描述,并将生成的描述与外部知识库中的描述进行匹配,以零样本的方式确定物种。我们还研究了构建详细动物描述生成的指导调优数据集的技术,并提出了一种新的知识增强技术来提高描述质量。我们在哥伦比亚 Magdalena Medio 地区的一个新的摄像机陷阱数据集上展示了 WildMatch 的性能。