Jun, 2024

大型语言模型用于蛋白质理解的微调数据集和基准评估

TL;DR通过整合前期训练模型和预训练的语言模型,本研究提出了 ProteinLMDataset 数据集和 ProteinLMBench 基准数据集,用于提升大型语言模型在蛋白质序列理解方面的能力,并通过实验证明其在蛋白质理解能力方面超越了 GPT-4。