MonarchNet: 区分与飞蛾类似物种的帝王蝶
提出了一种多模态深度学习模型——数字分类学家,该模型可以在一种统一的框架中考虑空间、时间和生态上下文的附加线索,提高了植物物种图片识别准确率。
Jun, 2021
提出一种深度学习模型 InsectNet,以应对昆虫识别在实际环境下的挑战,并能准确识别超过2500种节肢动物物种,包括有害害虫、寄生虫、食草动物和掠食动物,并可指导公民科学数据收集。
Jun, 2023
为了对昆虫生物多样性进行编目,我们提出了一个新的手动标注昆虫图像的大型数据集,BIOSCAN-Insect 数据集。该数据集由专家进行分类,同时还提供相关的遗传信息,包括原始核苷酸条形码序列和分配的条形码索引号,这些是基于基因的物种分类的代理。本文介绍了一个由百万图像组成的精选数据集,主要用于训练能够提供基于图像的分类评估的计算机视觉模型,然而,该数据集还具有引人注目的特征,研究这些特征对于更广泛的机器学习社区也是有兴趣的。受数据集固有的生物学特性驱动,显示出了具有长尾类别不平衡分布的特点。此外,分类标签是一个分层分类方案,对低层级的问题提出了非常细粒度的分类问题。通过在实施和分析基准分类器的过程中探索分类任务,本文将促进机器学习社区对生物多样性研究的兴趣,并推动创建基于图像的分类器的进展,这也将进一步实现 BIOSCAN 研究的终极目标:为全球生物多样性的综合调查奠定基础。
Jul, 2023
在物种鉴定中,细粒度分类是一项具有挑战性的任务。本研究比较了利用转换器层和卷积层的两种深度学习算法在昆虫纲中的表现,发现混合模型在准确性上优于完全卷积模型和完全转换器模型,而完全转换器模型在推断速度上优于其他模型。
Jul, 2023
我们使用机器学习的原理开发了新的工具来解决物种复合体相关问题,通过将图像分类为已知种群或新类别,并使用深度神经网络成功进行物种分类和检测,以及应用这些方法于物种复合体和真实生物多样性的记录。
Nov, 2023
使用机器学习技术,特别是深度卷积神经网络,对生物种类进行基于图像的识别在很多公众科学平台中至关重要。然而,关于训练网络所需的关键数据集构建和网络架构的选择目前有很少的文献资料,因此难以复制。本文提出了一种简化的方法,通过使用公开可用的研究级数据集,构建生物分类的数据集,并使用Google的AutoML Vision云服务的现成深度卷积神经网络模型。以葡萄牙本土植物为案例研究,该案例研究依托于葡萄牙植物学会提供的高质量数据集,并通过添加来自iNaturalist、Pl@ntNet和Observation.org的采样数据扩大。我们发现,通过精心设计数据集,现成的机器学习云服务可以轻松生成与最先进的公众科学平台相媲美的准确模型。我们开发的最佳模型,名为Floralens,已集成到Project Biolens的公共网站中,在该网站中我们收集了其他分类的模型。训练该模型所使用的数据集和模型本身均可在Zenodo上公开获取。
Feb, 2024
为了解决生物多样性和气候危机之间的相互联系,我们需要了解物种的分布情况以及这些模式的变化。本研究介绍了使用卫星图像和其他物种的已知数据来预测物种分布模式的问题,并提出了R-Tran模型,该模型能够利用局部的观测数据进行预测。研究发现,R-Tran模型在预测物种遭遇率方面表现优于其他方法,无论是在同一类群(鸟类)内还是跨类群(鸟类和蝴蝶)中。该方法为通过对物种丰富数据进行建模,将洞察力转化到稀缺数据的其他物种中,打开了新的视角。
Mar, 2024
BIOSCAN-5M昆虫数据集是一个包含500万多个昆虫标本的综合数据集,通过包括分类标签、原核酸条形码序列、条形码索引以及地理信息等多模态信息,扩展了现有的基于图像的生物学数据集。研究通过提出三个基准实验,展示了多模态数据类型对分类和聚类准确性的影响。
Jun, 2024
本研究针对生物学中发现进化特征的挑战,提出了一种新框架HComP-Net,用于通过图像层次地学习原型。该方法有效解决了现有方法在层次原型学习中的不足,实验证明其在鸟类、蝴蝶和鱼类数据集上学习到的原型不仅准确且具有语义一致性,对未见物种也具有良好的泛化能力。
Sep, 2024