大型语言模型用于蛋白质理解的微调数据集和基准评估

Jun, 2024

大型语言模型用于蛋白质理解的微调数据集和基准评估

A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding

Yiqing Shen, Zan Chen, Michail Mamalakis, Luhan He, Haiyang Xia...

TL;DR通过整合前期训练模型和预训练的语言模型，本研究提出了 ProteinLMDataset 数据集和 ProteinLMBench 基准数据集，用于提升大型语言模型在蛋白质序列理解方面的能力，并通过实验证明其在蛋白质理解能力方面超越了 GPT-4。

Abstract

The parallels between protein sequences and natural language in their sequential structures have inspired the application of large language models (LLMs) to →

protein sequences large language models protein understanding proteinlmdataset proteinlmbench

发现论文，激发创造

ProtLLM：一种蛋白质与语言相互交织的蛋白质语言模型，以蛋白质作为词的预训练

我们提出了 ProtLLM，这是一个通用的跨模态大语言模型，用于蛋白质中心和蛋白质语言任务。ProtLLM 具有独特的动态蛋白质装配机制，能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外，我们提出了基于蛋白质作为单词的语言建模方法来训练 ProtLLM。通过开发专门的蛋白质词汇表，我们使模型能够从大量候选项中预测不仅自然语言，还包括蛋白质。另外，我们构建了一个大规模的交织蛋白质 - 文本数据集，名为 InterPT，用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源，从而赋予 ProtLLM 理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了 ProtLLM，并探索了其新颖的蛋白质语言应用。实验证明，ProtLLM 不仅在蛋白质中心任务上表现出卓越性能，并且在蛋白质语言任务上具有零 - shot 和上下文学习能力。

Feb, 2024

ProtTrans：通过自监督深度学习与高性能计算攻克生命密码的语言

通过训练两个自回归模型和四个自编码器模型，使用生物信息数据培训出来的语言模型（Language Models）能够在低推断开销下完成新的前沿预测，例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下，成功地进行氨基酸序列每残基预测，并出现在这个 https URL。

Jul, 2020

利用大规模预训练语言模型建模蛋白质

使用大规模的语言模型，可以从蛋白质序列中准确捕捉到进化信息，并在标记层和序列层任务中取得了显着的改进。

Aug, 2021

UltraLink：一种开源的知识增强的多语言监督微调数据集

本研究构建了一个开源的多语言监督微调数据集，通过引入基于知识的数据增强方法提高了大语言模型从不同国家的用户中获取文化特定知识的能力，并通过实验发现现代大语言模型表现出强大的跨语言转移能力，从而有效地减少了语言无关的微调数据，使得微调过程更加高效。基于构建的 UltraLink 数据集进行训练的 UltraLink-LM 在多个任务上优于其他代表性基线模型。

Feb, 2024

InstructProtein: 通过知识指导对齐人类和蛋白质语言

InstructProtein 是一种具备双向生成能力的语言模型，用于预测蛋白质的功能描述并通过自然语言促使蛋白质序列生成，通过预训练和基于知识图谱的指导数据生成框架，解决了蛋白质序列理解和人类语言理解之间的差距。

Oct, 2023

ProtChatGPT: 面向理解蛋白质的大型语言模型

ProtChatGPT 通过自然语言学习和理解蛋白质结构，使用户能够上传蛋白质、提问和进行互动对话以生成全面答案，为蛋白质研究提供了新的可能性。

Feb, 2024

ProtT3: 基于文本的蛋白质理解的蛋白质到文本生成

ProtT3 是一个框架，通过将 Protein Language Models 作为其蛋白质理解模块，使语言模型能够理解氨基酸序列，并实现有效的蛋白质到文本生成。

May, 2024

xTrimoPGLM: 语言解码的统一百亿级预训练变压器

通过创新的预训练框架，提出了一个统一的蛋白质语言模型 xTrimoPGLM，能够同时处理蛋白质理解和生成任务，拥有超过 1000 亿个参数和 1 万亿个训练标记的前所未有的规模。在 18 个蛋白质理解基准测试中，xTrimoPGLM 明显优于其他先进基准，能够提供蛋白质结构的原子分辨率视图，并超越现有基于语言模型的工具的 3D 结构预测能力。此外，xTrimoPGLM 不仅可以根据自然原理生成全新的蛋白质序列，还可以在有监督的精调后进行可编程的生成。这些结果凸显了 xTrimoPGLM 在理解和生成蛋白质序列方面的重大能力和多功能性，在蛋白质科学基础模型的发展中具有重要意义。

Jan, 2024

大型语言模型的数据集：综述

该研究论文对大型语言模型数据集进行了综述和分类，包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面；此外还提供了现有数据集资源的综合评估，涵盖 8 个语言类别和 32 个领域，包括来自 444 个数据集的统计信息，共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据；旨在为研究人员提供整个 LLM 文本数据集的全貌，并为未来的研究做出贡献。

Feb, 2024

FineWeb 数据集：对网络进行精细分离以获取大规模最佳文本数据

FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集，比其他公开预训练数据集产生更好性能的大型语言模型（LLM）。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力，我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。

Jun, 2024