BarcodeBERT:用于生物多样性分析的变压器模型
通过融合图像、DNA 编码和文本数据的多模态方法,采用 CLIP 风格对比学习将其在统一的嵌入空间中对齐,实现对已知和未知昆虫物种的准确分类,无需特定任务微调;该方法在零样本学习任务中的准确度比单模态方法高出 11%,展示了其在生物多样性研究中的有效性。
May, 2024
通过引入 DNABERT-S 模型对 DNA 进行嵌入,结合 Manifold Instance Mixup 和 Curriculum Contrastive Learning(C2LR)策略,本研究在基因组学分析中取得了显著的性能提升,尤其在元基因组分组和物种分类方面表现突出。
Feb, 2024
通过图像识别物种可帮助将生物多样性监测扩展到全球范围,然而在实际应用中仍存在许多需要解决的挑战。通过 DNA 代表性序列与可见类别的相似性,本研究提出了一种重排序方法,该方法可轻松应用于任何预训练模型和现有的 ODD 检测方法,并实验证明相比于所有常见基准线,该方法改善了分类的 ODD 检测。
Jun, 2024
为了对昆虫生物多样性进行编目,我们提出了一个新的手动标注昆虫图像的大型数据集,BIOSCAN-Insect 数据集。该数据集由专家进行分类,同时还提供相关的遗传信息,包括原始核苷酸条形码序列和分配的条形码索引号,这些是基于基因的物种分类的代理。本文介绍了一个由百万图像组成的精选数据集,主要用于训练能够提供基于图像的分类评估的计算机视觉模型,然而,该数据集还具有引人注目的特征,研究这些特征对于更广泛的机器学习社区也是有兴趣的。受数据集固有的生物学特性驱动,显示出了具有长尾类别不平衡分布的特点。此外,分类标签是一个分层分类方案,对低层级的问题提出了非常细粒度的分类问题。通过在实施和分析基准分类器的过程中探索分类任务,本文将促进机器学习社区对生物多样性研究的兴趣,并推动创建基于图像的分类器的进展,这也将进一步实现 BIOSCAN 研究的终极目标:为全球生物多样性的综合调查奠定基础。
Jul, 2023
此研究提出用基于统计方法的 BPE 算法替换 k-mer 作为基因组语言的标记,并基于此引入了一种高效的基因组基础模型 DNABERT-2 和包含 28 个数据集和 7 项任务的全面的多物种基因组分类数据集 GUE,该模型具有可比较的性能,仅有 21 倍的参数和大约 56 倍的 GPU 时间用于预训练。
Jun, 2023
本研究探究将视觉图像与基因信息相结合的方法,提出了 aligned visual-genetic inference spaces 的概念,并通过深度嵌入模型实现了跨领域交叉关联以促进稀有物种的识别,结果表明这种方法在图像分类中具有很好的效果,能够极大地提高分类结果的精度。
May, 2023
BIOSCAN-5M 昆虫数据集是一个包含 500 万多个昆虫标本的综合数据集,通过包括分类标签、原核酸条形码序列、条形码索引以及地理信息等多模态信息,扩展了现有的基于图像的生物学数据集。研究通过提出三个基准实验,展示了多模态数据类型对分类和聚类准确性的影响。
Jun, 2024
该研究使用卷积神经网络对数字化后的植物标本图像进行分类和特征提取,取得了良好的分类和识别效果,将有望用于未来的分类学和自然历史收藏管理工具中。
Mar, 2018
通过深度学习方法,使用 animal2vec 框架并提供了 MeerKAT 数据集,可以对稀疏的生物声学数据进行分类和建模,从而为生物声学研究提供了新的参考和基准。
Jun, 2024
该论文提出了一种适用于分布式视觉语言预训练的简单方法,并在具有挑战性的 iNaturalist-2021 数据集上实现了零样本分类精度,从而打开了在涉及物种检测的农业相关应用中利用高质量视觉 - 语言预训练模型的新途径。
Feb, 2023