2021植物标本库半地球挑战数据集
本研究旨在开发一种自动化方法,利用计算机视觉和深度学习技术帮助专家识别标本以加速植物学研究。为此,提供了一个由专家标记的干燥标本图像数据集用于挑战性场景的自动化识别的发展。
Jun, 2019
提出了一种多模态深度学习模型——数字分类学家,该模型可以在一种统一的框架中考虑空间、时间和生态上下文的附加线索,提高了植物物种图片识别准确率。
Jun, 2021
为了对昆虫生物多样性进行编目,我们提出了一个新的手动标注昆虫图像的大型数据集,BIOSCAN-Insect 数据集。该数据集由专家进行分类,同时还提供相关的遗传信息,包括原始核苷酸条形码序列和分配的条形码索引号,这些是基于基因的物种分类的代理。本文介绍了一个由百万图像组成的精选数据集,主要用于训练能够提供基于图像的分类评估的计算机视觉模型,然而,该数据集还具有引人注目的特征,研究这些特征对于更广泛的机器学习社区也是有兴趣的。受数据集固有的生物学特性驱动,显示出了具有长尾类别不平衡分布的特点。此外,分类标签是一个分层分类方案,对低层级的问题提出了非常细粒度的分类问题。通过在实施和分析基准分类器的过程中探索分类任务,本文将促进机器学习社区对生物多样性研究的兴趣,并推动创建基于图像的分类器的进展,这也将进一步实现 BIOSCAN 研究的终极目标:为全球生物多样性的综合调查奠定基础。
Jul, 2023
机器学习技术在地球观测挑战上的应用取得了巨大的突破,但缺乏足够的参考数据已经成为新的瓶颈。本文以 E URO C ROPS 为例,展示了一个用于农作物类型分类的参考数据集,通过整合多个国家的行政数据,并实现跨国互操作性,以解决大规模可靠高质量参考数据的问题。
Oct, 2023
使用深度学习模型分析与预测全球兰科植物的物种群集保护状况,并且指出马达加斯加和周边岛屿为最高威胁区域,提供了全球生态系统保护中的参考和优先级的建议。
Jan, 2024
评估一种基于深度学习的物种分布模型的方法,检验其在IUCN物种评估中的分类效果,发现威胁物种的比例在全球范围内呈增加趋势,尤其在非洲、亚洲和南美洲,而在两个热带地区、赤道、低地和海拔800-1,500米处,受威胁物种的比例预计将达到峰值。
Jan, 2024
介绍了Arboretum数据集,这是最大的公开可访问的数据集,旨在推动用于生物多样性应用的人工智能。该数据集由iNaturalist社区科学平台策划并得到领域专家的核实,包括1.346亿幅图像,规模超过现有数据集一个数量级。该数据集对鸟类、蜘蛛/蜱螨、昆虫、植物、真菌/蘑菇、蜗牛和蛇/蜥蜴等多种物种具有图像-语言配对数据,是多模态视觉-语言AI模型进行生物多样性评估和农业研究的宝贵资源。每张图像都附有科学名称、分类学细节和通用名称,增强了AI模型的训练鲁棒性。通过释放其中4000万个带有说明的图像子集训练的CLIP模型,展示了Arboretum的价值。引入了几个新的严格评估基准,报告了零样本学习的准确性以及在生命周期阶段、稀有物种、混淆物种和分类学层次不同级别的评估。预计Arboretum将推动能够实现多种数字工具的人工智能模型的发展,包括害虫控制策略、农作物监测、全球生物多样性评估和环境保护等。这些进展对于确保食品安全、保护生态系统和减缓气候变化的影响至关重要。Arboretum是公开可用、易于访问且可以立即使用的。请参阅项目网站以获取有关数据、模型和代码的链接。
Jun, 2024
本研究解决了自动识别树种时缺乏足够多样化标记数据集的问题,推出了FOR-species20K数据集,其中包含来自33种树木的20,000多个点云数据。研究发现,基于2D图像的深度学习模型表现优于3D点云模型,尤其是DetailView模型在处理数据不平衡方面表现出色。这为使用激光扫描数据的树种分类提供了重要基准。
Aug, 2024
本研究解决了在大尺度下监测生物多样性的困难,目的是填补物种分布模型(SDMs)在空间特征整合方面的空白。通过设计和开发包含超过10,000种物种的新欧洲尺度高分辨率数据集,提供多样的环境栅格和卫星图像,研究展示了改进的数据可用性和工具对物种预测的显著影响。
Aug, 2024