Aug, 2024

利用大型语言模型设计蛋白质:增强和比较分析

TL;DR本研究解决了在蛋白质序列生成中可用数据有限的问题,通过重新训练包括Mistral-7B、Llama-2-7B、Llama-3-8B和gemma-7B在内的预训练大型语言模型,使其能够生成生物上合理的蛋白质结构。研究结果表明,即使在仅有42,000个独特人类蛋白质序列的数据集上,这些模型的表现与使用数百万蛋白质序列训练的专业模型相当,推动了计算生物学领域的透明度和合作。