Mol-Instructions: 一份面向大型语言模型的大规模生物分子指令数据集

Jun, 2023

Mol-Instructions: 一份面向大型语言模型的大规模生物分子指令数据集

Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for Large Language Models

Yin Fang, Xiaozhuan Liang, Ningyu Zhang, Kangwei Liu, Rui Huang...

TL;DR为了提高大型模型在生物分子领域的适应能力和认知敏锐度，我们引入了 Mol-Instructions，这是一个精心策划的、专门为生物分子领域设计的全面指令数据集，包括分子指令、蛋白质指令和生物分子文本指令。

Abstract

large language models (LLMs), with their remarkable task-handling capabilities and innovative outputs, have catalyzed significant advancements across a spectrum of fields. However, their proficiency within specialized domains such as →

large language models mol-instructions biomolecular instruction dataset prediction capabilities

发现论文，激发创造

InstructMol: 用于药物发现中构建多模态集成的多功能可靠分子助手

通过一种多模态的大型语言模型 InstructMol，将分子结构与自然语言有效地对齐，通过一种指令调整方法，利用有限的领域特定数据与分子和文本信息相结合的两阶段训练策略，展示了在药物发现相关的分子任务上的显著性能改进，超过了领先的大型语言模型，并显著缩小了与专业模型之间的差距，从而为实现一个多才多艺、可靠的药物发现助手奠定了坚实的基础。

Nov, 2023

LlaSMol：通过大规模、综合、高质量的指导调整数据集推进化学领域的大型语言模型

我们研究了基于 SMolInstruct 数据集进行 fine-tune 的大型语言模型在化学任务上表现出色，特别是 Mistral 模型，同时，我们还分析了可训练参数的影响，为未来的研究提供了一些见解。

Feb, 2024

MolX: 使用多模态扩展增强大型语言模型在分子学习中的能力

本研究设计和装备 MolX 作为一种多模态外部模块，通过使用特定编码器从 SMILES 字符串和 2D 分子图表示中提取细粒度特征，从而增强了大型语言模型（LLMs）在理解分子方面的能力。实验结果表明，我们提出的方法在多种分子相关任务中表现出色，包括从分子到文本的翻译和分子的逆合成，无论是否对 LLM 进行微调。

Jun, 2024

BioInstruct: 大型语言模型用于生物医学自然语言处理的指令调整

LLMs 在自然语言处理任务中取得了巨大成功，但在生物医学领域的指令却只有少数发布。为了解决这个问题，我们介绍了 BioInstruct，一个包含超过 25000 个示例的定制任务特定指令数据集。通过使用 BioInstruct 数据集对 LLMs 进行微调，我们旨在优化 LLM 在生物医学自然语言处理（BioNLP）领域的性能。我们在 BioNLP 应用中对 LLaMA LLMs（1＆2，7B＆13B）进行了指令调优，并评估了它们的信息提取、问答和文本生成能力。我们还使用多任务学习原则评估了指令对模型性能的贡献。

Oct, 2023

InstructBio：用于生化问题的大规模半监督学习范式

本文提出了一种半监督学习算法 InstructMol 来解决大规模的分子建模任务中数据稀缺的问题，并在细粒度后处理以提高准确性。

Apr, 2023

大规模语言模型用于分子预测任务的基准测试

LLMs 在分子预测任务中的表现相对较弱，而与机器学习模型合作使用时，LLMs 有潜力提升模型性能。

Mar, 2024

InstructProtein: 通过知识指导对齐人类和蛋白质语言

InstructProtein 是一种具备双向生成能力的语言模型，用于预测蛋白质的功能描述并通过自然语言促使蛋白质序列生成，通过预训练和基于知识图谱的指导数据生成框架，解决了蛋白质序列理解和人类语言理解之间的差距。

Oct, 2023

MM-Instruct: 大型多模态模型对齐的生成视觉指令

该研究介绍了 MM-Instruct，这是一个大规模、多样化和高质量的视觉指导数据集，旨在增强大型多模态模型（LMMs）的指令跟随能力，并通过使用现有的 LLMs 从大规模图像字幕数据集生成新的视觉指导数据，并介绍了一个基于生成的指导数据来评估现有 LMMs 的指令跟随能力的基准。

Jun, 2024

SelectLLM: LLM 能否选择重要指令进行注释？

通过使用大型语言模型（LLM）和大量多样化的训练指令数据集，本研究提出了一种称为 SelectLLM 的新型方法，利用 LLMs 来选择高质量的指令，并在常见的指令评估中展示出相当或稍微更好的性能。

Jan, 2024

从词语到分子：化学中大型语言模型的调查

将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务，本文以细致的方法论探索了该跨学科领域的复杂性和创新，从分子信息如何通过各种表示和标记方法导入 LLMs 开始，将化学 LLMs 分为三个不同的群体，并讨论了将这些输入整合到 LLMs 的方法，然后探讨了应用 LLMs 在化学中的多样化应用，包括在化学任务中的新范例，最后确定了有望的研究方向，包括进一步整合化学知识，持续学习的进展以及模型可解释性的改进，为该领域的突破性发展铺平了道路。

Feb, 2024