Jan, 2024

xTrimoPGLM: 语言解码的统一百亿级预训练变压器

TL;DR通过创新的预训练框架,提出了一个统一的蛋白质语言模型 xTrimoPGLM,能够同时处理蛋白质理解和生成任务,拥有超过 1000 亿个参数和 1 万亿个训练标记的前所未有的规模。在 18 个蛋白质理解基准测试中,xTrimoPGLM 明显优于其他先进基准,能够提供蛋白质结构的原子分辨率视图,并超越现有基于语言模型的工具的 3D 结构预测能力。此外,xTrimoPGLM 不仅可以根据自然原理生成全新的蛋白质序列,还可以在有监督的精调后进行可编程的生成。这些结果凸显了 xTrimoPGLM 在理解和生成蛋白质序列方面的重大能力和多功能性,在蛋白质科学基础模型的发展中具有重要意义。