Aug, 2023

OpenProteinSet: 大规模结构生物学训练数据

TL;DR为了推动蛋白质的机器学习研究进展,我们介绍了一个开源数据集 OpenProteinSet,其中包含超过 1600 万个蛋白质多序列比对,与蛋白质数据库中的结构同源物和 AlphaFold2 蛋白质结构预测相对应,可广泛用于蛋白质结构、功能、设计以及大规模多模式机器学习研究的训练和验证数据。