Nov, 2023

GlycoNMR: 使用图神经网络预测糖类 NMR 化学位移的数据集和基准

TL;DR分子表示学习(MRL)是一种将分子转化为数值表示并保留其化学特性的功能强大的工具,在机器学习和化学科学之间架起了桥梁。在糖科学领域,MRL 方法的探索相对较少,这主要归因于糖特定数据集的有限可用性和缺乏针对糖数据所提出的机器学习流程。为了解决这个挑战,推动糖科学的进展,丰富 MRL 社区的数据资源,我们引入了 GlycoNMR,其包含两个经过精心策划的数据集,共有 2,609 个糖结构和 211,543 个标注的核磁共振(NMR)化学位移以进行精确的原子级预测。我们针对这个问题定制了特定于糖的功能并改进了现有的 MRL 模型,在我们的新数据集上对四种修改后的 MRL 模型进行了基准测试。