Jun, 2024

Geneverse: 用于基因组学和蛋白质组学研究的开源多模态大型语言模型集合

TL;DR基因组学和蛋白质组学研究中的大型语言模型(LLMs)应用前景广阔。我们提出了一种名为 Geneverse 的针对基因组学和蛋白质组学研究中三个创新任务的经过微调的 LLMs 和多模态 LLMs(MLLMs)集合。Geneverse 模型基于领域特定的数据集进行训练和评估,我们使用高级的参数高效微调技术来实现模型适应性,包括生成基因功能描述、从蛋白质结构推理蛋白功能以及从空间转录组数据中选择标记基因。我们证明经过调适的 LLMs 和 MLLMs 在这些任务中表现良好,可能在准确性和结构正确性方面优于基于闭源的大规模模型。我们所使用的所有训练策略和基本模型均可以免费获取。