2021植物标本库半地球挑战数据集

May, 2021

The Herbarium 2021 Half-Earth Challenge Dataset

Riccardo de Lutio, Damon Little, Barbara Ambrose, Serge Belongie

TL;DR本研究介绍了全球最大、最多样化的标本收藏数据集Herbarium Half-Earth，旨在通过数字化技术协助自动识别和对分类进行研究，此数据集对于支持植物学研究具有非常重要的意义。

Abstract

herbarium sheets present a unique view of the world's botanical history, evolution, and diversity. This makes them an all-important data source for botanical research. With the increased digitisation of herbaria

发现论文，激发创造

2019年植物标本挑战赛数据集

本研究旨在开发一种自动化方法，利用计算机视觉和深度学习技术帮助专家识别标本以加速植物学研究。为此，提供了一个由专家标记的干燥标本图像数据集用于挑战性场景的自动化识别的发展。

Jun, 2019

基于深度学习的植物器官数字化标注检测

利用深度学习和Faster R-CNN检测数字化标本上的植物器官，有效地提取重要的生物信息。

Jul, 2020

数字分类学家：在公众科学家拍摄的照片中识别植物物种

提出了一种多模态深度学习模型——数字分类学家，该模型可以在一种统一的框架中考虑空间、时间和生态上下文的附加线索，提高了植物物种图片识别准确率。

Jun, 2021

全球生物多样性评估的一步：BIOSCAN-1M昆虫数据集

为了对昆虫生物多样性进行编目，我们提出了一个新的手动标注昆虫图像的大型数据集，BIOSCAN-Insect 数据集。该数据集由专家进行分类，同时还提供相关的遗传信息，包括原始核苷酸条形码序列和分配的条形码索引号，这些是基于基因的物种分类的代理。本文介绍了一个由百万图像组成的精选数据集，主要用于训练能够提供基于图像的分类评估的计算机视觉模型，然而，该数据集还具有引人注目的特征，研究这些特征对于更广泛的机器学习社区也是有兴趣的。受数据集固有的生物学特性驱动，显示出了具有长尾类别不平衡分布的特点。此外，分类标签是一个分层分类方案，对低层级的问题提出了非常细粒度的分类问题。通过在实施和分析基准分类器的过程中探索分类任务，本文将促进机器学习社区对生物多样性研究的兴趣，并推动创建基于图像的分类器的进展，这也将进一步实现 BIOSCAN 研究的终极目标：为全球生物多样性的综合调查奠定基础。

Jul, 2023

利用行政数据清单创建可靠的全球农作物类型监测参考数据库

机器学习技术在地球观测挑战上的应用取得了巨大的突破，但缺乏足够的参考数据已经成为新的瓶颈。本文以 E URO C ROPS 为例，展示了一个用于农作物类型分类的参考数据集，通过整合多个国家的行政数据，并实现跨国互操作性，以解决大规模可靠高质量参考数据的问题。

Oct, 2023

基于人工智能的全球范围兰花群落保护状况绘制

使用深度学习模型分析与预测全球兰科植物的物种群集保护状况，并且指出马达加斯加和周边岛屿为最高威胁区域，提供了全球生态系统保护中的参考和优先级的建议。

Jan, 2024

利用深度学习模拟物种分布以预测植物灭绝风险并评估气候变化影响

评估一种基于深度学习的物种分布模型的方法，检验其在IUCN物种评估中的分类效果，发现威胁物种的比例在全球范围内呈增加趋势，尤其在非洲、亚洲和南美洲，而在两个热带地区、赤道、低地和海拔800-1,500米处，受威胁物种的比例预计将达到峰值。

Jan, 2024

树木园：一个大型多模数据集为生物多样性提供AI支持

介绍了Arboretum数据集，这是最大的公开可访问的数据集，旨在推动用于生物多样性应用的人工智能。该数据集由iNaturalist社区科学平台策划并得到领域专家的核实，包括1.346亿幅图像，规模超过现有数据集一个数量级。该数据集对鸟类、蜘蛛/蜱螨、昆虫、植物、真菌/蘑菇、蜗牛和蛇/蜥蜴等多种物种具有图像-语言配对数据，是多模态视觉-语言AI模型进行生物多样性评估和农业研究的宝贵资源。每张图像都附有科学名称、分类学细节和通用名称，增强了AI模型的训练鲁棒性。通过释放其中4000万个带有说明的图像子集训练的CLIP模型，展示了Arboretum的价值。引入了几个新的严格评估基准，报告了零样本学习的准确性以及在生命周期阶段、稀有物种、混淆物种和分类学层次不同级别的评估。预计Arboretum将推动能够实现多种数字工具的人工智能模型的发展，包括害虫控制策略、农作物监测、全球生物多样性评估和环境保护等。这些进展对于确保食品安全、保护生态系统和减缓气候变化的影响至关重要。Arboretum是公开可用、易于访问且可以立即使用的。请参阅项目网站以获取有关数据、模型和代码的链接。

Jun, 2024

基于近距离激光扫描数据的树种分类基准：引入FOR-species20K数据集

本研究解决了自动识别树种时缺乏足够多样化标记数据集的问题，推出了FOR-species20K数据集，其中包含来自33种树木的20,000多个点云数据。研究发现，基于2D图像的深度学习模型表现优于3D点云模型，尤其是DetailView模型在处理数据不平衡方面表现出色。这为使用激光扫描数据的树种分类提供了重要基准。

Aug, 2024

GeoPlant：空间植物物种预测数据集

本研究解决了在大尺度下监测生物多样性的困难，目的是填补物种分布模型（SDMs）在空间特征整合方面的空白。通过设计和开发包含超过10,000种物种的新欧洲尺度高分辨率数据集，提供多样的环境栅格和卫星图像，研究展示了改进的数据可用性和工具对物种预测的显著影响。

Aug, 2024