Feb, 2024

FGBERT:用于宏基因组学的功能驱动预训练基因语言模型

TL;DR通过蛋白质基因表示为基础,引入了一种上下文感知和结构相关的分词器,即 Masked Gene Modeling(MGM)用于基因组级预训练,Triple Enhanced Metagenomic Contrastive Learning(TEM-CL)用于基因级预训练,提出了一种新颖的 metagenomic language model(NAME),基于 1 亿个元基因组序列进行了预训练,并在八个数据集上展示了其卓越性能。