细胞中的分子表示学习

Jun, 2024

Learning Molecular Representation in a Cell

Gang Liu, Srijit Seal, John Arevalo, Zhenwen Liang, Anne E. Carpenter...

TL;DR通过信息对齐方法，我们提出了一种学习细胞分子表示的信息瓶颈方法，整合分子和细胞反应数据构建上下文图，优化编码器的潜在表示以丢弃冗余结构信息，并通过对齐分子在上下文图中的不同特征空间来验证所提出的方法在药物疗效和分子性质预测方面的有效性。

Abstract

Predicting drug efficacy and safety in vivo requires information on biological responses (e.g., cell morphology and gene expression) to small molecule perturbations. However, current molecular representation learning

drug efficacy molecular representation learning information alignment cellular response data molecular property prediction

发现论文，激发创造

多模态信息下的分子联合表示学习

本文提出了一种新的分子联合表示学习框架，通过 SMILES 和分子图的多模态信息进行多模态融合，改进了自我注意力机制，并进一步提出了双向消息传递图神经网络来增强从图中聚合的信息流以进一步组合。我们通过公共性质预测数据集上的大量实验证明了我们的模型的有效性。

Nov, 2022

MolFusion: 分子表示的多模态融合学习 -- 基于多粒度视图

人工智能通过编码药物分子来预测药物特性，帮助快速筛选候选药物。利用不同来源的分子表示，如 SMILES 和分子图，可以提供互补信息进行分子编码。我们提出了一种多粒度融合方法 MolFusion，该方法利用分子级和原子级编码实现不同分子表示之间的相互对齐，实验结果表明 MolFusion 有效地利用了多模态的互补信息，在不同分类和回归任务中显著提高了性能。

Jun, 2024

通过信息最大化从分子表征中去除偏差

高通量药物筛选是生物技术中评估药物化学结构与生物活性关系的关键工具。本文提出了一种信息最大化方法 InfoCORE 来有效处理批次效应，并获得精确的分子表征。InfoCORE 通过建立给定批次标识符的潜在表征的条件互信息的变分下界，自适应地重新加权样本以均衡其隐含批次分布。大量的药物筛选数据实验证明 InfoCORE 在包括分子性质预测和分子 - 表型检索等多项任务中具有卓越性能。此外，我们展示了 InfoCORE 如何通过最小化与虚假特征的相关性或移除敏感属性来提供一个多用途的框架，解决了数据分布偏移和数据公平性的问题。

Dec, 2023

在离散潜空间中学习不变的分子表示

该研究提出了一种新的分子表示学习框架，通过首次编码然后分离的策略在潜空间中识别有不变性和鲁棒性的分子特征，以实现对分布转换的更强的泛化能力，通过自监督学习目标鼓励精确不变性识别，适用于各种任务，如回归和多标签分类。

Oct, 2023

对比预训练下的多语言分子表示学习

该研究提出了一种基于对比学习构建多语言分子嵌入的预训练方法 MM-Deacon，通过对 SMILES 和 IUPAC 语言的大规模分子进行预训练，在分子性质预测、零样本跨语言检索和药物相互作用预测任务中取得了鲁棒性良好的结果。

Sep, 2021

基于环境丰富的分子表征提高少样本药物发现

该研究提出了一种新的少样本药物发现方法，通过 Modern Hopfield Network 的参照分子对支持集和查询集中的分子进行表示丰富，从而成为药物发现中新的最优方法。

Apr, 2023

化学反应感知分子表示学习

该研究提出使用化学反应来辅助学习分子表示，强制规定化学方程中反应物嵌入和生成物嵌入之和相等，以保持嵌入空间的良好组织，并提高分子嵌入的泛化能力。实验结果表明，该方法在多个下游任务中获得了最先进的性能。

Sep, 2021

从分子到支架到功能团：通过多通道学习构建具有上下文依赖性的分子表示

使用自监督学习和分子结构内的层次知识，该论文提出了一种新的学习框架，从而可以准确预测分子属性并在各种基准测试中取得竞争性表现。

Nov, 2023

基于图像和图结构的多模态学习用于预测分子性质的框架

MolIG 是一种多模态分子预训练框架，通过图像和图结构创新地利用分子图和分子图像之间的一致性和相关性执行自监督任务，有效地将两种分子表示形式的优势融合在一起，这种整体方法能够捕捉关键的分子结构特征和高层次的语义信息，并在分子拓展组和 ADMET 拓展组等基准组中，相对于先进的基线模型展现出在分子性质预测等拓展任务中性能的提升。

Nov, 2023

使用互信息机器改进小分子生成

该论文提出一种基于自编码器和互信息机器学习的方法 MolMIM，用于小分子药物发现领域的分子生成和优化，并使用 CMA-ES 算法在 MolMIM 潜在空间中进行性质引导的分子优化任务，取得了优异的结果。

Aug, 2022