NaNa 和 MiGu:用于增强图神经网络中蛋白质分类的语义数据增强技术
本文提出了一种新的数据增强技术,通过修改分子图的拓扑结构生成具有与原始数据相同的分子连通性索引的增强数据,结合数据增强技术和分子连通性索引能够保留更多基于拓扑结构的分子性质信息并生成更可靠的数据,通过使用五个基准数据集测试表明,基于重要的分子拓扑特征生成的增强数据可以有效提高分子性质的预测准确度,这也为化学信息学研究中的数据增强提供了新的视角。
Jan, 2024
数据增强技术被用于蛋白质数据中,通过引入两种新的语义级别蛋白质增强方法,以及将增强技术整合到一个自适应选择增强组合的框架中,通过实验证明 Automated Protein Augmentation(APA)提高了三种架构下五个蛋白质相关任务的性能,平均提升了 10.55%,显示出其在该领域具有巨大潜力。
Mar, 2024
我们提出了一种新颖的结构感知的蛋白自监督学习方法,利用图神经网络模型预训练,从残基距离和二面角的角度考虑自监督学习任务,借鉴预训练蛋白语言模型的序列信息结合专门设计的 GNN 模型的结构信息进行伪二级优化,实验证明该方法在多个监督型下游任务中的有效性。
Apr, 2022
该篇研究提出了两种启发式算法:随机映射和基元相似度映射,并结合数据增强、数据筛选和模型重训练的通用模型演化框架 M-Evolve 以优化预训练的图分类器,解决小规模基准数据集上过拟合问题,平均提高 3-12% 图分类任务的准确率。
Sep, 2020
提出了一种名为 Grad-Align+ 的网络对齐方法,通过中心性节点特征增强、图神经网络辅助嵌入相似度计算以及 Grad-Align 中逐步发现节点对的信息,实现了在缺少锚定连接或节点特征信息的情况下高效准确的网络对齐。
Apr, 2023
本文提出使用半监督学习训练图形神经网络来归因结构 - 属性关系,并将此方法应用于溶解度和分子酸度两个案例研究,以验证其与已知实验化学数据的一致性。该方法可为活性崖、引物优化和新药设计等问题提供有价值的工具。
Jan, 2022
本文介绍了 ProteinKG65,一个专门用于蛋白质科学的知识图谱,它基于基因本体论和 Uniprot 知识库,并整合了多种知识,主要旨在将基因本体论的知识应用于蛋白质功能及结构预测,文中还展示了 ProteinKG65 的潜在应用。
May, 2022
通过图结构的启发式转换,引入数据增强并提出四种方法:随机映射,顶点相似度映射,基元随机映射和基元相似度映射,生成更多弱标记数据,以优化预训练图分类器。实验证明,该框架可以减轻小规模基准数据集上现有图分类模型的过拟合和过度泛化问题,并在图分类任务上成功地提高了 3-13%的准确度。
Jul, 2020
MolIG 是一种多模态分子预训练框架,通过图像和图结构创新地利用分子图和分子图像之间的一致性和相关性执行自监督任务,有效地将两种分子表示形式的优势融合在一起,这种整体方法能够捕捉关键的分子结构特征和高层次的语义信息,并在分子拓展组和 ADMET 拓展组等基准组中,相对于先进的基线模型展现出在分子性质预测等拓展任务中性能的提升。
Nov, 2023
DIG-Mol 是一种新颖的自我监督图神经网络框架,可以有效地改善分子特征化,通过对比学习的力量和独特的分子图增强策略,来提取关于分子结构和高阶语义的关键信息,并证实了其在分子性质预测方面的出色性能。
May, 2024