NaNa 和 MiGu：用于增强图神经网络中蛋白质分类的语义数据增强技术

ICMLMar, 2024

NaNa 和 MiGu：用于增强图神经网络中蛋白质分类的语义数据增强技术

NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks

Yi-Shan Lan, Pin-Yu Chen, Tsung-Yi Ho

TL;DR提出一种新型语义数据增强方法和共嵌入残差学习框架，以将蛋白质的主链化学和侧链生物物理信息纳入蛋白质分类任务中，并使 GIN 在 EC 和 Fold 数据集上的性能分别提高了 16.41% 和 11.33%。

Abstract

protein classification tasks are essential in drug discovery. Real-world protein structures are dynamic, which will determine the properties of proteins. However, the existing →

protein classification tasks protein structures machine learning methods semantic data augmentation co-embedding residual learning framework

发现论文，激发创造

多模态表示学习用于分子属性预测：序列、图形、几何

本文提出了一种新的数据增强技术，通过修改分子图的拓扑结构生成具有与原始数据相同的分子连通性索引的增强数据，结合数据增强技术和分子连通性索引能够保留更多基于拓扑结构的分子性质信息并生成更可靠的数据，通过使用五个基准数据集测试表明，基于重要的分子拓扑特征生成的增强数据可以有效提高分子性质的预测准确度，这也为化学信息学研究中的数据增强提供了新的视角。

Jan, 2024

通过蛋白质数据增强改善蛋白质预测模型：一个基准和新方向

数据增强技术被用于蛋白质数据中，通过引入两种新的语义级别蛋白质增强方法，以及将增强技术整合到一个自适应选择增强组合的框架中，通过实验证明 Automated Protein Augmentation（APA）提高了三种架构下五个蛋白质相关任务的性能，平均提升了 10.55%，显示出其在该领域具有巨大潜力。

Mar, 2024

蛋白质结构感知的自监督学习

我们提出了一种新颖的结构感知的蛋白自监督学习方法，利用图神经网络模型预训练，从残基距离和二面角的角度考虑自监督学习任务，借鉴预训练蛋白语言模型的序列信息结合专门设计的 GNN 模型的结构信息进行伪二级优化，实验证明该方法在多个监督型下游任务中的有效性。

Apr, 2022

图分类的数据增强

该篇研究提出了两种启发式算法：随机映射和基元相似度映射，并结合数据增强、数据筛选和模型重训练的通用模型演化框架 M-Evolve 以优化预训练的图分类器，解决小规模基准数据集上过拟合问题，平均提高 3-12% 图分类任务的准确率。

Sep, 2020

节点特征增强维生素化网络对齐

提出了一种名为 Grad-Align+ 的网络对齐方法，通过中心性节点特征增强、图神经网络辅助嵌入相似度计算以及 Grad-Align 中逐步发现节点对的信息，实现了在缺少锚定连接或节点特征信息的情况下高效准确的网络对齐。

Apr, 2023

半监督 GCN 学习分子结构 - 活性相关性

本文提出使用半监督学习训练图形神经网络来归因结构 - 属性关系，并将此方法应用于溶解度和分子酸度两个案例研究，以验证其与已知实验化学数据的一致性。该方法可为活性崖、引物优化和新药设计等问题提供有价值的工具。

Jan, 2022

多模式蛋白知识图谱构建及应用

本文介绍了 ProteinKG65，一个专门用于蛋白质科学的知识图谱，它基于基因本体论和 Uniprot 知识库，并整合了多种知识，主要旨在将基因本体论的知识应用于蛋白质功能及结构预测，文中还展示了 ProteinKG65 的潜在应用。

May, 2022

M-Evolve: 基于结构映射的图分类数据增强

通过图结构的启发式转换，引入数据增强并提出四种方法：随机映射，顶点相似度映射，基元随机映射和基元相似度映射，生成更多弱标记数据，以优化预训练图分类器。实验证明，该框架可以减轻小规模基准数据集上现有图分类模型的过拟合和过度泛化问题，并在图分类任务上成功地提高了 3-13％的准确度。

Jul, 2020

基于图像和图结构的多模态学习用于预测分子性质的框架

MolIG 是一种多模态分子预训练框架，通过图像和图结构创新地利用分子图和分子图像之间的一致性和相关性执行自监督任务，有效地将两种分子表示形式的优势融合在一起，这种整体方法能够捕捉关键的分子结构特征和高层次的语义信息，并在分子拓展组和 ADMET 拓展组等基准组中，相对于先进的基线模型展现出在分子性质预测等拓展任务中性能的提升。

Nov, 2023

对比双交互图神经网络用于分子性质预测

DIG-Mol 是一种新颖的自我监督图神经网络框架，可以有效地改善分子特征化，通过对比学习的力量和独特的分子图增强策略，来提取关于分子结构和高阶语义的关键信息，并证实了其在分子性质预测方面的出色性能。

May, 2024