BarcodeBERT：用于生物多样性分析的变压器模型

Nov, 2023

BarcodeBERT：用于生物多样性分析的变压器模型

BarcodeBERT: Transformers for Biodiversity Analysis

Pablo Millan Arias, Niousha Sadjadi, Monireh Safari, ZeMing Gong, Austin T. Wang...

TL;DR利用 DNA 条形码参考库，提出了一种名为 BarcodeBERT 的自监督方法，对物种和属级别进行高准确性的 DNA 条形码识别，该方法兼顾数据集细节和覆盖范围对模型选择的影响，并强调了自监督预训练在高准确性 DNA 条形码分析中的作用。

Abstract

Understanding biodiversity is a global challenge, in which dna barcodes - short snippets of DNA that cluster by species - play a pivotal role. In particular, →

biodiversity dna barcodes machine learning invertebrates self-supervised pretraining

发现论文，激发创造

BIOSCAN-CLIP: 跨越视觉和基因组学的大规模生物多样性监测

通过融合图像、DNA 编码和文本数据的多模态方法，采用 CLIP 风格对比学习将其在统一的嵌入空间中对齐，实现对已知和未知昆虫物种的准确分类，无需特定任务微调；该方法在零样本学习任务中的准确度比单模态方法高出 11%，展示了其在生物多样性研究中的有效性。

May, 2024

DNABERT-S：利用基因组数据模型学习基于物种的 DNA 嵌入

通过引入 DNABERT-S 模型对 DNA 进行嵌入，结合 Manifold Instance Mixup 和 Curriculum Contrastive Learning（C2LR）策略，本研究在基因组学分析中取得了显著的性能提升，尤其在元基因组分组和物种分类方面表现突出。

Feb, 2024

基于 DNA 条形码改进的分类学基于图像的越界检测

通过图像识别物种可帮助将生物多样性监测扩展到全球范围，然而在实际应用中仍存在许多需要解决的挑战。通过 DNA 代表性序列与可见类别的相似性，本研究提出了一种重排序方法，该方法可轻松应用于任何预训练模型和现有的 ODD 检测方法，并实验证明相比于所有常见基准线，该方法改善了分类的 ODD 检测。

Jun, 2024

全球生物多样性评估的一步：BIOSCAN-1M 昆虫数据集

为了对昆虫生物多样性进行编目，我们提出了一个新的手动标注昆虫图像的大型数据集，BIOSCAN-Insect 数据集。该数据集由专家进行分类，同时还提供相关的遗传信息，包括原始核苷酸条形码序列和分配的条形码索引号，这些是基于基因的物种分类的代理。本文介绍了一个由百万图像组成的精选数据集，主要用于训练能够提供基于图像的分类评估的计算机视觉模型，然而，该数据集还具有引人注目的特征，研究这些特征对于更广泛的机器学习社区也是有兴趣的。受数据集固有的生物学特性驱动，显示出了具有长尾类别不平衡分布的特点。此外，分类标签是一个分层分类方案，对低层级的问题提出了非常细粒度的分类问题。通过在实施和分析基准分类器的过程中探索分类任务，本文将促进机器学习社区对生物多样性研究的兴趣，并推动创建基于图像的分类器的进展，这也将进一步实现 BIOSCAN 研究的终极目标：为全球生物多样性的综合调查奠定基础。

Jul, 2023

DNABERT-2：多物种基因组高效基础模型和基准

此研究提出用基于统计方法的 BPE 算法替换 k-mer 作为基因组语言的标记，并基于此引入了一种高效的基因组基础模型 DNABERT-2 和包含 28 个数据集和 7 项任务的全面的多物种基因组分类数据集 GUE，该模型具有可比较的性能，仅有 21 倍的参数和大约 56 倍的 GPU 时间用于预训练。

Jun, 2023

深度视觉遗传生物识别用于稀有物种的分类

本研究探究将视觉图像与基因信息相结合的方法，提出了 aligned visual-genetic inference spaces 的概念，并通过深度嵌入模型实现了跨领域交叉关联以促进稀有物种的识别，结果表明这种方法在图像分类中具有很好的效果，能够极大地提高分类结果的精度。

May, 2023

BIOSCAN-5M：一种昆虫生物多样性的多模式数据集

BIOSCAN-5M 昆虫数据集是一个包含 500 万多个昆虫标本的综合数据集，通过包括分类标签、原核酸条形码序列、条形码索引以及地理信息等多模态信息，扩展了现有的基于图像的生物学数据集。研究通过提出三个基准实验，展示了多模态数据类型对分类和聚类准确性的影响。

Jun, 2024

利用深度卷积神经网络从数字化标本中识别分类和特征

该研究使用卷积神经网络对数字化后的植物标本图像进行分类和特征提取，取得了良好的分类和识别效果，将有望用于未来的分类学和自然历史收藏管理工具中。

Mar, 2018

animal2vec 和 MeerKAT：用于稀有事件原始音频输入的自监督变换器和用于生物声学的大规模参考数据集

通过深度学习方法，使用 animal2vec 框架并提供了 MeerKAT 数据集，可以对稀疏的生物声学数据进行分类和建模，从而为生物声学研究提供了新的参考和基准。

Jun, 2024

用于高效物种检测的 LiT 调整模型

该论文提出了一种适用于分布式视觉语言预训练的简单方法，并在具有挑战性的 iNaturalist-2021 数据集上实现了零样本分类精度，从而打开了在涉及物种检测的农业相关应用中利用高质量视觉 - 语言预训练模型的新途径。

Feb, 2023