Jan, 2024

生成对数据集漂移具有鲁棒性的浮游生物分类器

TL;DR现代浮游生物高通量监测依赖于深度学习分类器对水生态系统中的物种识别。我们研究中集成了 ZooLake 数据集和 10 个独立部署日的手动标注图像,作为用于评估超出数据集的表现的测试单元。我们通过分析发现,在实际场景中,分类器在初始数据集条件下表现良好的情况下也会遇到显著失败的例子。我们提出了一个三步骤的流程:(一)辨别比正常测试性能下的超出数据集降级,(二)进行降级原因的诊断分析,以及(三)提供解决方案。我们发现,使用 BEiT 视觉转换器进行集成的模型在超出数据集鲁棒性、几何集合和基于旋转的测试时间增强方面具有较强的模型,我们称之为 BEsT 模型。它的超出数据集准确度为 83%,错误集中在容器类上。此外,它对数据集变化的敏感性较低,并且能够很好地体现浮游生物的丰度。我们提出的流程适用于通用的浮游生物分类器,在适当的测试单元可用的情况下。通过非常短的表达,我们的研究为更可靠的浮游生物分类技术的发展提供了帮助。