Feb, 2024
FGBERT:用于宏基因组学的功能驱动预训练基因语言模型
FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics
ChenRui Duan, Zelin Zang, Yongjie Xu, Hang He, Zihan Liu...
TL;DR通过蛋白质基因表示为基础,引入了一种上下文感知和结构相关的分词器,即 Masked Gene Modeling(MGM)用于基因组级预训练,Triple Enhanced Metagenomic Contrastive Learning(TEM-CL)用于基因级预训练,提出了一种新颖的 metagenomic language model(NAME),基于 1 亿个元基因组序列进行了预训练,并在八个数据集上展示了其卓越性能。