分子表示学习中揭示神经比例定律

Sep, 2023

分子表示学习中揭示神经比例定律

Uncovering Neural Scaling Laws in Molecular Representation Learning

Dingshuo Chen, Yanqiao Zhu, Jieyu Zhang, Yuanqi Du, Zhixun Li...

TL;DR从数据中心的观点出发，本文研究了分子表示学习的神经缩放行为，在数据量、数据质量和模型容量等四个关键维度上，证实了数据量和分子表示性能之间的一致性幂律关系，并通过详细分析，发现了提高学习效率的可能途径。

Abstract

molecular representation learning (MRL) has emerged as a powerful tool for drug and materials discovery in a variety of tasks such as virtual screening and inverse design. While there has been a surge of interest in advancing model-centric techniques, the influence of both

molecular representation learning data quantity data quality neural scaling behaviors learning efficiency

发现论文，激发创造

分子构象集的学习：数据集与基准

分子表示学习具有在药物发现和酶设计等众多生物化学应用中的显著影响。我们提出了第一个全面评估从同构体集合学习的潜力的 MoleculAR Conformer Ensemble Learning (MARCEL) 基准，并建议有前景的研究方向。我们的研究结果表明，直接从可访问的同构体空间学习可以提高各种任务和模型的性能。

Sep, 2023

化学反应感知分子表示学习

该研究提出使用化学反应来辅助学习分子表示，强制规定化学方程中反应物嵌入和生成物嵌入之和相等，以保持嵌入空间的良好组织，并提高分子嵌入的泛化能力。实验结果表明，该方法在多个下游任务中获得了最先进的性能。

Sep, 2021

MolCAP：分子化学反应预训练及促进微调增强的分子表示学习

我们提出了一种基于化学反应知识的 MolCAP，它是一个图形预训练变压器模型，用于推动分子表示学习，其结果表明在各种生物医学任务中优于传统预训练框架的比较方法，这表明了应用反应信息进行分子表示学习的前景。

Jun, 2023

Uni-Mol2：规模化探索分子预训练模型

通过使用两个通道的变压器模型并对模型大小、数据集大小和计算资源进行特性化研究，成功构建了迄今为止最大的 1.1 亿参数的分子预训练模型 Uni-Mol2，并在下游任务中展现了一致性的性能改进和超越现有方法。

Jun, 2024

GlycoNMR: 使用图神经网络预测糖类 NMR 化学位移的数据集和基准

分子表示学习（MRL）是一种将分子转化为数值表示并保留其化学特性的功能强大的工具，在机器学习和化学科学之间架起了桥梁。在糖科学领域，MRL 方法的探索相对较少，这主要归因于糖特定数据集的有限可用性和缺乏针对糖数据所提出的机器学习流程。为了解决这个挑战，推动糖科学的进展，丰富 MRL 社区的数据资源，我们引入了 GlycoNMR，其包含两个经过精心策划的数据集，共有 2,609 个糖结构和 211,543 个标注的核磁共振（NMR）化学位移以进行精确的原子级预测。我们针对这个问题定制了特定于糖的功能并改进了现有的 MRL 模型，在我们的新数据集上对四种修改后的 MRL 模型进行了基准测试。

Nov, 2023

通过图神经网络进行分子对比学习表示

本文介绍了 MolCLR 框架：通过图神经网络的分子对比学习，基于大规模未标记的分子数据集学习不同 iable 的表征，提供预训练和微调来有效地预测分子性质，实验结果显示该框架在分类和回归任务上显着提高了性能。

Feb, 2021

图上的神经标度法则

通过研究深度图模型的扩展性，本文从模型和数据两个角度揭示了神经扩展定律，并提出了针对图数据的模型和数据扩展定律，为构建大规模图模型提供了重要见解。

Feb, 2024

密集检索的缩放定律

文章研究了稠密检索模型的性能是否遵循与其他神经模型相同的缩放定律，并提出使用对比对数似然作为评估指标，并通过大量实验证明，在我们设置下，稠密检索模型的性能遵循与模型大小和注释数量相关的明确的幂律缩放。此外，文章还通过流行的数据增强方法来检验缩放效果，以评估注释质量的影响，并应用缩放定律来找到在预算限制下的最佳资源分配策略，这些研究结果对于理解稠密检索模型的缩放效应并为未来的研究提供有意义的指导具有重要意义。

Mar, 2024

从化学反应知识中学习上下文分子表示

借助自监督学习的 REM0 框架，基于化学反应的上下文，对分子表示学习进行了预训练，提供了富含化学知识的有意义的上下文表示，用于支持各种下游分子任务，同时在活性分析基准中超过了指纹方法。

Feb, 2024

分析学习的分子表征进行性质预测

在分子属性预测的算法解决方案中，神经机器技术的进步导致了一系列算法解决方案，其中神经网络应用于计算分子指纹或专家制作的描述符以及构造学习分子表示的图卷积神经网络最为有效，这项研究进行了广泛的基准测试，并提出了优于现有模型的图卷积模型的实证发现。

Apr, 2019