Jun, 2022

ProGen2:探索蛋白质语言模型的界限

TL;DR介绍了一套名为 ProGen2 的蛋白质语言模型,它具有 64 亿个参数,在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布,生成新的可行序列以及在不需要额外微调的情况下预测蛋白质适应性的最佳性能。研究表明在向蛋白质序列模型提供数据分布时需要越来越多的关注点。