May, 2024

扩散模型中的合成数据改善药物发现预测

TL;DR人工智能在药物研发的各个阶段中得到了越来越多的应用。我们提出了一个新的数据挑战,即数据集常常相互独立收集,缺乏重叠部分,导致数据稀疏。为解决这一挑战,我们提出了一种新颖的扩散图神经网络模型 Syngand,可以全面生成配体和药物动力学数据。利用我们的 Syngand 模型,我们展示了一种用于现有配体采样药物动力学数据的方法学。我们在 AqSolDB、LD50 和 hERG central 等下游回归任务上展示了 Syngand 生成的合成靶标属性数据的初步有效结果。使用我们提出的模型和方法,研究人员可以轻松生成合成配体数据,以帮助他们探索涉及跨多个数据集的研究问题。