Sep, 2023

使用大型语言模型挖掘专利显示功能标签与化学结构的一致性

TL;DR从化学结构预测化学功能是化学科学的一个重要目标,最近,新的机器学习算法为跨多个不同化学功能的通用预测模型打开了可能性。我们使用可扩展的 ChatGPT 辅助专利摘要和词嵌入标签清理流程,构建了一个 Chemical Function (CheF) 数据集,其中包含了 10 万个分子及其由专利衍生的功能标签,并验证了这些功能标签的高质量,发现功能标签的共现图包含了稳健的语义结构,进一步对化合物之间的功能相关性进行了研究,并训练了 CheF 数据集上的模型,从而能够将新的功能标签分配给化合物,有望实现预测化学功能的新方法。