学习将辅助数据集分组用于分子

Jul, 2023

Learning to Group Auxiliary Datasets for Molecule

Tinglin Huang, Ziniu Hu, Rex Ying

TL;DR通过结合图结构和任务相似性，我们提出了 MolGroup 模型，该模型能够可靠地识别出对目标数据集有益的辅助分子数据集，并通过优化的路由机制实现了预测每个目标数据集的最佳辅助数据集组合，通过一系列实验证明了 MolGroup 的效率和有效性。

Abstract

The limited availability of annotations in small molecule datasets presents a challenge to machine learning models. To address this, one c

limited availability annotations machine learning models auxiliary datasets graph structure similarity

发现论文，激发创造

利用辅助学习和特定任务适应性增强分子性质预测

既训练的图神经网络（Pretrained Graph Neural Networks）广泛应用于各种分子属性预测任务，但由于传统的精调对目标任务的训练会导致较差的泛化性能，因此本文探讨了通过与多个辅助任务共同训练的方式来适应目标任务的预训练图神经网络。实验证明了我们提出的方法的有效性，在最先进的预训练图神经网络上的改进效果达到了 7.7％，这表明在分子属性预测中，将辅助任务与目标任务的精调结合起来可以有效提高预训练图神经网络的泛化能力。

Jan, 2024

基序能够作为归纳偏差用于学习分子分布

通过研究亚图结构和词汇设计对分布学习的影响，揭示了 Subcover 对于提高现有方法的性能和可扩展性的潜力，从而在分子机器学习方面为化学家提供了优秀的工具。

Apr, 2023

图分类的数据增强

该篇研究提出了两种启发式算法：随机映射和基元相似度映射，并结合数据增强、数据筛选和模型重训练的通用模型演化框架 M-Evolve 以优化预训练的图分类器，解决小规模基准数据集上过拟合问题，平均提高 3-12% 图分类任务的准确率。

Sep, 2020

半监督 GCN 学习分子结构 - 活性相关性

本文提出使用半监督学习训练图形神经网络来归因结构 - 属性关系，并将此方法应用于溶解度和分子酸度两个案例研究，以验证其与已知实验化学数据的一致性。该方法可为活性崖、引物优化和新药设计等问题提供有价值的工具。

Jan, 2022

通过更高维任务关联性提升图上的多任务学习

本文通过多任务学习的视角重新考虑了在给定图上预测多个节点标签函数的问题，并且提出了一种基于高阶任务亲和力度量的任务分组算法，可以更准确地预测负转移。

Jun, 2023

多模态表示学习用于分子属性预测：序列、图形、几何

本文提出了一种新的数据增强技术，通过修改分子图的拓扑结构生成具有与原始数据相同的分子连通性索引的增强数据，结合数据增强技术和分子连通性索引能够保留更多基于拓扑结构的分子性质信息并生成更可靠的数据，通过使用五个基准数据集测试表明，基于重要的分子拓扑特征生成的增强数据可以有效提高分子性质的预测准确度，这也为化学信息学研究中的数据增强提供了新的视角。

Jan, 2024

3D-Mol: 分子属性预测的新型对比学习框架与三维信息

通过提取三维特征和使用对比学习的方法，我们的研究提出了一种名为 3D-Mol 的新型三维结构分子建模方法，用于准确表示空间结构，并在 7 个基准测试中展示了出色的性能。

Sep, 2023

基于图像和图结构的多模态学习用于预测分子性质的框架

MolIG 是一种多模态分子预训练框架，通过图像和图结构创新地利用分子图和分子图像之间的一致性和相关性执行自监督任务，有效地将两种分子表示形式的优势融合在一起，这种整体方法能够捕捉关键的分子结构特征和高层次的语义信息，并在分子拓展组和 ADMET 拓展组等基准组中，相对于先进的基线模型展现出在分子性质预测等拓展任务中性能的提升。

Nov, 2023

SupSiam：分子构象学习的非对比辅助损失

本研究探讨孪生网络用于学习与分子构象相关的嵌入式样本，并发现一种非对比式辅助任务可辅助监督学习和增加流形平滑度。我们在多项药物活性预测任务中展示了此属性，并提出将流形平滑度扩展到概率和回归设置。我们针对表征陷落进行了分析，发现任务加权、潜在维数和正则化等因素都有显著影响。我们期望提供的协议能帮助开发出可靠的 E3NNs 用于分子构象的小数据药物发现计划。

Feb, 2023

M-Evolve: 基于结构映射的图分类数据增强

通过图结构的启发式转换，引入数据增强并提出四种方法：随机映射，顶点相似度映射，基元随机映射和基元相似度映射，生成更多弱标记数据，以优化预训练图分类器。实验证明，该框架可以减轻小规模基准数据集上现有图分类模型的过拟合和过度泛化问题，并在图分类任务上成功地提高了 3-13％的准确度。

Jul, 2020