分子表示学习中揭示神经比例定律
分子表示学习具有在药物发现和酶设计等众多生物化学应用中的显著影响。我们提出了第一个全面评估从同构体集合学习的潜力的 MoleculAR Conformer Ensemble Learning (MARCEL) 基准,并建议有前景的研究方向。我们的研究结果表明,直接从可访问的同构体空间学习可以提高各种任务和模型的性能。
Sep, 2023
该研究提出使用化学反应来辅助学习分子表示,强制规定化学方程中反应物嵌入和生成物嵌入之和相等,以保持嵌入空间的良好组织,并提高分子嵌入的泛化能力。实验结果表明,该方法在多个下游任务中获得了最先进的性能。
Sep, 2021
我们提出了一种基于化学反应知识的 MolCAP,它是一个图形预训练变压器模型,用于推动分子表示学习,其结果表明在各种生物医学任务中优于传统预训练框架的比较方法,这表明了应用反应信息进行分子表示学习的前景。
Jun, 2023
通过使用两个通道的变压器模型并对模型大小、数据集大小和计算资源进行特性化研究,成功构建了迄今为止最大的 1.1 亿参数的分子预训练模型 Uni-Mol2,并在下游任务中展现了一致性的性能改进和超越现有方法。
Jun, 2024
分子表示学习(MRL)是一种将分子转化为数值表示并保留其化学特性的功能强大的工具,在机器学习和化学科学之间架起了桥梁。在糖科学领域,MRL 方法的探索相对较少,这主要归因于糖特定数据集的有限可用性和缺乏针对糖数据所提出的机器学习流程。为了解决这个挑战,推动糖科学的进展,丰富 MRL 社区的数据资源,我们引入了 GlycoNMR,其包含两个经过精心策划的数据集,共有 2,609 个糖结构和 211,543 个标注的核磁共振(NMR)化学位移以进行精确的原子级预测。我们针对这个问题定制了特定于糖的功能并改进了现有的 MRL 模型,在我们的新数据集上对四种修改后的 MRL 模型进行了基准测试。
Nov, 2023
本文介绍了 MolCLR 框架:通过图神经网络的分子对比学习,基于大规模未标记的分子数据集学习不同 iable 的表征,提供预训练和微调来有效地预测分子性质,实验结果显示该框架在分类和回归任务上显着提高了性能。
Feb, 2021
文章研究了稠密检索模型的性能是否遵循与其他神经模型相同的缩放定律,并提出使用对比对数似然作为评估指标,并通过大量实验证明,在我们设置下,稠密检索模型的性能遵循与模型大小和注释数量相关的明确的幂律缩放。此外,文章还通过流行的数据增强方法来检验缩放效果,以评估注释质量的影响,并应用缩放定律来找到在预算限制下的最佳资源分配策略,这些研究结果对于理解稠密检索模型的缩放效应并为未来的研究提供有意义的指导具有重要意义。
Mar, 2024
借助自监督学习的 REM0 框架,基于化学反应的上下文,对分子表示学习进行了预训练,提供了富含化学知识的有意义的上下文表示,用于支持各种下游分子任务,同时在活性分析基准中超过了指纹方法。
Feb, 2024
在分子属性预测的算法解决方案中,神经机器技术的进步导致了一系列算法解决方案,其中神经网络应用于计算分子指纹或专家制作的描述符以及构造学习分子表示的图卷积神经网络最为有效,这项研究进行了广泛的基准测试,并提出了优于现有模型的图卷积模型的实证发现。
Apr, 2019