利用多任务语言建模统一分子和文本表示

Jan, 2023

利用多任务语言建模统一分子和文本表示

Unifying Molecular and Textual Representations via Multi-task Language Modelling

Dimitrios Christofidellis, Giorgio Giannone, Jannis Born, Ole Winther, Teodoro Laino...

TL;DR提出了一种多领域、多任务的语言模型，能够处理化学和自然语言，并共享模型参数来优化实验室操作和科学发现加速。

Abstract

The recent advances in neural language models have also been successfully applied to the field of chemistry, offering generative solutions for classical problems in →

发现论文，激发创造

GPT模型在化学方面能做什么？八项任务的综合评估

本文针对大语言模型在化学领域能力的未知，建立起一个包含8个化学实践任务的全面基准，运用GPT-4、GPT-3.5和Davinci-003三种GPT模型以零样本和少样本的情境下进行测试，发现GPT-4相较于其他两种模型表现更佳，而GPT模型在需要精确理解分子SMILES表示的任务中较为欠缺，而在文本相关的说明任务方面表现出较强的能力。

May, 2023

分子发现中的语言模型

科学语言模型在分子发现中的作用及其在药物设计、性质预测和反应化学中的优势，以及通过降低科学语言建模领域的门槛来加速化学发现，并提出结合聊天机器人界面和计算化学工具的分子设计愿景。

Sep, 2023

MolTailor: 通过文本提示定制化化学分子表征以执行特定任务

通过将语言模型视为代理和分子预训练模型视为知识库，我们提出了一种新颖的方法，称为MolTailor，它可以通过理解任务的自然语言描述来强调分子表示中与任务相关的特征，从而提高预测性能。通过评估，我们证明了MolTailor相较于基线模型表现出更好的性能，验证了增强分子表示学习相关性的有效性，展示了语言模型引导优化的潜力，以更好地利用和释放现有强大的分子表示方法的能力。

Jan, 2024

从词语到分子: 化学中大型语言模型的调查

将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务，本文以细致的方法论探索了该跨学科领域的复杂性和创新，从分子信息如何通过各种表示和标记方法导入LLMs开始，将化学LLMs分为三个不同的群体，并讨论了将这些输入整合到LLMs的方法，然后探讨了应用LLMs在化学中的多样化应用，包括在化学任务中的新范例，最后确定了有望的研究方向，包括进一步整合化学知识，持续学习的进展以及模型可解释性的改进，为该领域的突破性发展铺平了道路。

Feb, 2024

科学语言建模：大型语言模型在分子科学中的定量评价

通过使用多模态基准ChEBI-20-MM，我们评估了模型与数据模态的兼容性和知识获取，并通过模态转移概率矩阵提供了适用于任务的最合适的模态，同时引入了一种统计可解释的方法，通过局部特征过滤来发现具有上下文特定的知识映射，从而揭示了科学语言建模在分子科学中的学习机制及其推进方法的可能性。

Feb, 2024

化学LLM: 一种化学大型语言模型

ChemLLM是第一个专门用于化学领域的大型语言模型，通过使用结构化化学知识构建对话系统，能够在化学学科中顺畅交互完成各种任务，包括名称转换、分子标题和反应预测，并在相关数学和物理任务中展现出出色的适应性。

Feb, 2024

文本与分子之间的桥梁：一项关于分子多模态框架的调查

通过综述多模态分子研究的框架，本文探讨了人工智能在分子科学中的应用，特别关注文本与分子之间的对齐方法以及使用大型语言模型和提示技术进行分子任务的重要应用，同时讨论了该领域的局限性和未来研究的几个有希望的方向。

Mar, 2024

大型语言模型是超人级化学家吗？

通过ChemBench等评估框架，我们发现大型语言模型在化学科学中展示出卓越的能力，但仍需进一步研究以提高其安全性和实用性。

Apr, 2024

ChemVLM：探索多模态大语言模型在化学领域的应用

本研究解决了现有化学大语言模型在处理视觉信息方面的不足，提出了一种名为ChemVLM的多模态大语言模型，专门应用于化学领域。ChemVLM经过双语多模态数据集训练，能够更好地理解文本和视觉信息，实验结果表明其在多个评估任务中表现优异，对化学领域具有潜在的深远影响。

Aug, 2024

ChemDFM-X：面向化学的多模态大型模型

本研究解决了现有单模态特定模型和新兴大型多模态模型无法覆盖化学数据的广泛需求的难题。我们提出了首个化学跨模态对话基础模型ChemDFM-X，通过生成多样化的多模态数据，构建了一个包含760万条数据的指令调优数据集。ChemDFM-X在不同化学任务上展现出其多模态和跨模态知识理解的能力，为化学领域的通用智能奠定了重要基础。

Sep, 2024