Mol-Instructions: 一份面向大型语言模型的大规模生物分子指令数据集
通过一种多模态的大型语言模型 InstructMol,将分子结构与自然语言有效地对齐,通过一种指令调整方法,利用有限的领域特定数据与分子和文本信息相结合的两阶段训练策略,展示了在药物发现相关的分子任务上的显著性能改进,超过了领先的大型语言模型,并显著缩小了与专业模型之间的差距,从而为实现一个多才多艺、可靠的药物发现助手奠定了坚实的基础。
Nov, 2023
我们研究了基于 SMolInstruct 数据集进行 fine-tune 的大型语言模型在化学任务上表现出色,特别是 Mistral 模型,同时,我们还分析了可训练参数的影响,为未来的研究提供了一些见解。
Feb, 2024
本研究设计和装备 MolX 作为一种多模态外部模块,通过使用特定编码器从 SMILES 字符串和 2D 分子图表示中提取细粒度特征,从而增强了大型语言模型(LLMs)在理解分子方面的能力。实验结果表明,我们提出的方法在多种分子相关任务中表现出色,包括从分子到文本的翻译和分子的逆合成,无论是否对 LLM 进行微调。
Jun, 2024
LLMs 在自然语言处理任务中取得了巨大成功,但在生物医学领域的指令却只有少数发布。为了解决这个问题,我们介绍了 BioInstruct,一个包含超过 25000 个示例的定制任务特定指令数据集。通过使用 BioInstruct 数据集对 LLMs 进行微调,我们旨在优化 LLM 在生物医学自然语言处理(BioNLP)领域的性能。我们在 BioNLP 应用中对 LLaMA LLMs(1&2,7B&13B)进行了指令调优,并评估了它们的信息提取、问答和文本生成能力。我们还使用多任务学习原则评估了指令对模型性能的贡献。
Oct, 2023
本文提出了一种半监督学习算法 InstructMol 来解决大规模的分子建模任务中数据稀缺的问题,并在细粒度后处理以提高准确性。
Apr, 2023
InstructProtein 是一种具备双向生成能力的语言模型,用于预测蛋白质的功能描述并通过自然语言促使蛋白质序列生成,通过预训练和基于知识图谱的指导数据生成框架,解决了蛋白质序列理解和人类语言理解之间的差距。
Oct, 2023
该研究介绍了 MM-Instruct,这是一个大规模、多样化和高质量的视觉指导数据集,旨在增强大型多模态模型(LMMs)的指令跟随能力,并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据,并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。
Jun, 2024
通过使用大型语言模型(LLM)和大量多样化的训练指令数据集,本研究提出了一种称为 SelectLLM 的新型方法,利用 LLMs 来选择高质量的指令,并在常见的指令评估中展示出相当或稍微更好的性能。
Jan, 2024
将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务,本文以细致的方法论探索了该跨学科领域的复杂性和创新,从分子信息如何通过各种表示和标记方法导入 LLMs 开始,将化学 LLMs 分为三个不同的群体,并讨论了将这些输入整合到 LLMs 的方法,然后探讨了应用 LLMs 在化学中的多样化应用,包括在化学任务中的新范例,最后确定了有望的研究方向,包括进一步整合化学知识,持续学习的进展以及模型可解释性的改进,为该领域的突破性发展铺平了道路。
Feb, 2024