Jul, 2023

GeneMask:基因序列的快速预训练以实现少样本学习

TL;DR提出了一种新的掩码算法 GeneMask,用于基因序列的掩码语言模型训练,该模型在四个基准基因序列分类数据集的五个少样本设置中明显优于当前最先进模型 DNABert 和 LOGO,同时训练时间不到原始模型的十分之一。