通过序列标注框架将物种信息分配给相应基因
基于WordNet类层次结构的机器学习方法提高了ImageNet和NABirds数据集的分类准确度,并在较短的训练时间内成功匹配了基线模型的细粒度识别性能。
Nov, 2018
本研究使用DNA作为fine-grained zero-shot分类的侧面信息,提出了一种基于层次贝叶斯模型的方法,并在鸟类数据集和昆虫数据集上分别得到了比word vectors更好的表现。
Sep, 2021
本文提出了一种使用粗略的分类标签来训练细粒度领域图像分类器的技术,并证明在Semi-iNat数据集上实现了显著的性能提升,其中相对增益较大的是在细粒度标签的情况下进行训练和使用半监督学习算法FixMatch。
Nov, 2021
本研究探究将视觉图像与基因信息相结合的方法,提出了aligned visual-genetic inference spaces的概念,并通过深度嵌入模型实现了跨领域交叉关联以促进稀有物种的识别,结果表明这种方法在图像分类中具有很好的效果,能够极大地提高分类结果的精度。
May, 2023
Phylo-NN是一种无需标签,直接从昆虫图片中提取进化特征序列的方法,对鱼类进行了演示,证明了其用于物种图像生成和物种-物种图像转换的有效性。
Jun, 2023
我们提出了一个手动注释的语料库,物种物种相互作用,用于在句子级别上从生物医学文本中提取物种之间有意义的二元关系,重点关注肠道微生物群落。该语料库利用PubTator对全文文章中的物种进行注释,并评估了不同的命名实体识别物种标记器。我们的第一批结果表明,使用BERT及其生物医学变体可以很好地提取物种之间的关系。
Jun, 2023
HyenaDNA是一个在人类参考基因组上进行预训练的基因组基础模型,具有长达100万个单核苷酸的上下文长度和单核苷酸层面的全局上下文,以及可用于简单调整以适应新任务而无需更新预训练模型权重的上下文学习能力,并在核苷酸转换器和基因组基准测试中达到了最先进的水平。
Jun, 2023
提出了一种深度学习方法用于实体规范化,通过将其视为一种成对学习来排名问题,并利用最佳匹配信息检索算法和双向编码器表示从编码器 (BERT) 重新对候选列表进行排名,消除了特征工程和规则创建的需求,在物种规范化方面超过了现有方法。
Oct, 2023
使用TEPI(面向分类法的嵌入和伪成像)通过零样本学习,将基因组表示为伪图像并映射到具有分类法意识的嵌入空间,从而捕获物种的组成和系统发育关系,进而在广泛的搜索空间中进行预测,并通过在大规模公开数据上进行定性评估展示其广义性能。
Jan, 2024
通过引入 DNABERT-S模型对 DNA 进行嵌入,结合 Manifold Instance Mixup 和 Curriculum Contrastive Learning(C2LR)策略,本研究在基因组学分析中取得了显著的性能提升,尤其在元基因组分组和物种分类方面表现突出。
Feb, 2024