物种 196:一个百万级半监督数据集用于细粒度物种识别
本论文提出了 iNaturalist 物种分类和检测数据集,包括来自全球 5000 多种植物和动物的 859,000 张图片,其中包括视觉相似的物种以及具有各种图像质量和类不平衡性的图片。通过对数据集进行广泛的基准实验,本文的结果表明目前基于非集成方法的计算机视觉分类和检测模型只能达到 67% 的准确率,提出了面临的挑战和需要更多低阶学习关注的解决方案。
Jul, 2017
本文介绍了一个新的半监督识别数据集,该数据集包含来自 iNat-2018 数据集中抽样得到的 1000 种鸟类,总共近 15 万张图像。该数据集的存在挑战着现有文献中的半监督识别技术,因为它包含领域外数据、类不平衡和类之间的微妙相似性。
Mar, 2021
为了对昆虫生物多样性进行编目,我们提出了一个新的手动标注昆虫图像的大型数据集,BIOSCAN-Insect 数据集。该数据集由专家进行分类,同时还提供相关的遗传信息,包括原始核苷酸条形码序列和分配的条形码索引号,这些是基于基因的物种分类的代理。本文介绍了一个由百万图像组成的精选数据集,主要用于训练能够提供基于图像的分类评估的计算机视觉模型,然而,该数据集还具有引人注目的特征,研究这些特征对于更广泛的机器学习社区也是有兴趣的。受数据集固有的生物学特性驱动,显示出了具有长尾类别不平衡分布的特点。此外,分类标签是一个分层分类方案,对低层级的问题提出了非常细粒度的分类问题。通过在实施和分析基准分类器的过程中探索分类任务,本文将促进机器学习社区对生物多样性研究的兴趣,并推动创建基于图像的分类器的进展,这也将进一步实现 BIOSCAN 研究的终极目标:为全球生物多样性的综合调查奠定基础。
Jul, 2023
本研究提供两个新的自然世界分类数据集 iNat2021 和 NeWT,探索了 fine-grained 类别的大规模表示和迁移学习的问题。研究表明,在各种任务中,基于 ImageNet 和 iNat2021 有监督方法学习到的特征优于 SimCLR 等自我监督方法。
Mar, 2021
通过引入一种名为 “Insect-1M” 的新型数据集,本研究旨在为虫类相关的基础模型训练提供资源,并通过微特征自监督学习方法和相关注意机制来提高昆虫图像建模效果,通过介绍一种描述一致性损失来改善微特征建模,从而在昆虫相关任务的标准基准上实现了最先进的性能,为下一代虫类相关视觉模型赋能,将其功能更接近于精准农业的终极目标。
Nov, 2023
本文介绍了细粒度视觉分类在生物多样性和物种分析领域的挑战性应用,提出了适用于计算机视觉研究的两个具有 675 个高度相似类别的挑战性新数据集,并使用卷积神经网络(CNN)的局部特征呈现了首个结果。最后,我们提出了生物多样性研究中视觉分类领域的新挑战性研究方向清单。
Jul, 2015
该论文提出了一种适用于分布式视觉语言预训练的简单方法,并在具有挑战性的 iNaturalist-2021 数据集上实现了零样本分类精度,从而打开了在涉及物种检测的农业相关应用中利用高质量视觉 - 语言预训练模型的新途径。
Feb, 2023
本文构建了两个新的基准网页监督的精细分类数据集 WebFG-496 和 WebiNat-5089,同时提出一种新的网页监督方法 Peer-learning,并在该数据集上进行了全面的实验。实验结果表明,该方法优于现有的基线模型和最先进的方法。
Aug, 2021
本文提出了一种使用粗略的分类标签来训练细粒度领域图像分类器的技术,并证明在 Semi-iNat 数据集上实现了显著的性能提升,其中相对增益较大的是在细粒度标签的情况下进行训练和使用半监督学习算法 FixMatch。
Nov, 2021