通过序列标注框架将物种信息分配给相应基因

May, 2022

通过序列标注框架将物种信息分配给相应基因

Assigning Species Information to Corresponding Genes by a Sequence Labeling Framework

Ling Luo, Chih-Hsuan Wei, Po-Ting Lai, Qingyu Chen, Rezarta Islamaj Doğan...

TL;DR通过深度学习和序列标注技术，将基因和物种之间的关系进行分类，从而提升了物种信息自动归属的准确性。

Abstract

The automatic assignment of species information to the corresponding genes in a research article is a critically important step in the gene normalization task, whereby a gene mention is normalized and linked to a database record or identifier by a →

发现论文，激发创造

整合领域知识：使用层级结构改进深度分类器

基于WordNet类层次结构的机器学习方法提高了ImageNet和NABirds数据集的分类准确度，并在较短的训练时间内成功匹配了基线模型的细粒度识别性能。

Nov, 2018

使用 DNA 侧面信息的细粒度零样本学习

本研究使用DNA作为fine-grained zero-shot分类的侧面信息，提出了一种基于层次贝叶斯模型的方法，并在鸟类数据集和昆虫数据集上分别得到了比word vectors更好的表现。

Sep, 2021

具有分类标签的半监督学习

本文提出了一种使用粗略的分类标签来训练细粒度领域图像分类器的技术，并证明在Semi-iNat数据集上实现了显著的性能提升，其中相对增益较大的是在细粒度标签的情况下进行训练和使用半监督学习算法FixMatch。

Nov, 2021

深度视觉遗传生物识别用于稀有物种的分类

本研究探究将视觉图像与基因信息相结合的方法，提出了aligned visual-genetic inference spaces的概念，并通过深度嵌入模型实现了跨领域交叉关联以促进稀有物种的识别，结果表明这种方法在图像分类中具有很好的效果，能够极大地提高分类结果的精度。

May, 2023

利用系统发育引导的神经网络从图像中发现新的生物特征

Phylo-NN是一种无需标签，直接从昆虫图片中提取进化特征序列的方法，对鱼类进行了演示，证明了其用于物种图像生成和物种-物种图像转换的有效性。

Jun, 2023

构建生物医学物种提及关系提取语料库

我们提出了一个手动注释的语料库，物种物种相互作用，用于在句子级别上从生物医学文本中提取物种之间有意义的二元关系，重点关注肠道微生物群落。该语料库利用PubTator对全文文章中的物种进行注释，并评估了不同的命名实体识别物种标记器。我们的第一批结果表明，使用BERT及其生物医学变体可以很好地提取物种之间的关系。

Jun, 2023

HyenaDNA：基于单核苷酸的远距离基因组序列建模

HyenaDNA是一个在人类参考基因组上进行预训练的基因组基础模型，具有长达100万个单核苷酸的上下文长度和单核苷酸层面的全局上下文，以及可用于简单调整以适应新任务而无需更新预训练模型权重的上下文学习能力，并在核苷酸转换器和基因组基准测试中达到了最先进的水平。

Jun, 2023

基于双编码器的物种标准化--用于排序的成对句子学习

提出了一种深度学习方法用于实体规范化，通过将其视为一种成对学习来排名问题，并利用最佳匹配信息检索算法和双向编码器表示从编码器 (BERT) 重新对候选列表进行排名，消除了特征工程和规则创建的需求，在物种规范化方面超过了现有方法。

Oct, 2023

TEPI：用于稀疏标记的零样本基因分类的分类学感知嵌入和伪图像

使用TEPI（面向分类法的嵌入和伪成像）通过零样本学习，将基因组表示为伪图像并映射到具有分类法意识的嵌入空间，从而捕获物种的组成和系统发育关系，进而在广泛的搜索空间中进行预测，并通过在大规模公开数据上进行定性评估展示其广义性能。

Jan, 2024

DNABERT-S：利用基因组数据模型学习基于物种的DNA嵌入

通过引入 DNABERT-S模型对 DNA 进行嵌入，结合 Manifold Instance Mixup 和 Curriculum Contrastive Learning（C2LR）策略，本研究在基因组学分析中取得了显著的性能提升，尤其在元基因组分组和物种分类方面表现突出。

Feb, 2024