Jan, 2024

LLaMA和ChatGPT嵌入在分子嵌入方面的比较分析

TL;DR大型语言模型在化学信息学领域的应用潜力日益受到重视,特别是在解释SMILES(Simplified Molecular Input Line Entry System)方面,这是一种表示化学结构的标准方法。通过使用大型语言模型可以将SMILES字符串解码为向量表示,从而提供了一种理解化学图的新方法。我们研究了ChatGPT和LLaMA在嵌入SMILES字符串方面的性能,并将重点评估应用在药物开发和医疗保健中至关重要的两个关键问题:分子性质预测和药物间相互作用预测。我们发现,使用LLaMA生成的SMILES嵌入在分子性质预测和药物间相互作用预测任务中胜过ChatGPT。值得注意的是,基于LLaMA的SMILES嵌入在这两个预测任务中与现有方法相当。大型语言模型在化学信息学中的应用,特别是利用SMILES嵌入,为推进药物开发提供了巨大的潜力,包括改进化学性质预测和促进药物发现过程。