大型语言模型用于蛋白质理解的微调数据集和基准评估
我们提出了 ProtLLM,这是一个通用的跨模态大语言模型,用于蛋白质中心和蛋白质语言任务。ProtLLM 具有独特的动态蛋白质装配机制,能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外,我们提出了基于蛋白质作为单词的语言建模方法来训练 ProtLLM。通过开发专门的蛋白质词汇表,我们使模型能够从大量候选项中预测不仅自然语言,还包括蛋白质。另外,我们构建了一个大规模的交织蛋白质 - 文本数据集,名为 InterPT,用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源,从而赋予 ProtLLM 理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了 ProtLLM,并探索了其新颖的蛋白质语言应用。实验证明,ProtLLM 不仅在蛋白质中心任务上表现出卓越性能,并且在蛋白质语言任务上具有零 - shot 和上下文学习能力。
Feb, 2024
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基酸序列每残基预测,并出现在这个 https URL。
Jul, 2020
本研究构建了一个开源的多语言监督微调数据集,通过引入基于知识的数据增强方法提高了大语言模型从不同国家的用户中获取文化特定知识的能力,并通过实验发现现代大语言模型表现出强大的跨语言转移能力,从而有效地减少了语言无关的微调数据,使得微调过程更加高效。基于构建的 UltraLink 数据集进行训练的 UltraLink-LM 在多个任务上优于其他代表性基线模型。
Feb, 2024
InstructProtein 是一种具备双向生成能力的语言模型,用于预测蛋白质的功能描述并通过自然语言促使蛋白质序列生成,通过预训练和基于知识图谱的指导数据生成框架,解决了蛋白质序列理解和人类语言理解之间的差距。
Oct, 2023
ProtChatGPT 通过自然语言学习和理解蛋白质结构,使用户能够上传蛋白质、提问和进行互动对话以生成全面答案,为蛋白质研究提供了新的可能性。
Feb, 2024
ProtT3 是一个框架,通过将 Protein Language Models 作为其蛋白质理解模块,使语言模型能够理解氨基酸序列,并实现有效的蛋白质到文本生成。
May, 2024
通过创新的预训练框架,提出了一个统一的蛋白质语言模型 xTrimoPGLM,能够同时处理蛋白质理解和生成任务,拥有超过 1000 亿个参数和 1 万亿个训练标记的前所未有的规模。在 18 个蛋白质理解基准测试中,xTrimoPGLM 明显优于其他先进基准,能够提供蛋白质结构的原子分辨率视图,并超越现有基于语言模型的工具的 3D 结构预测能力。此外,xTrimoPGLM 不仅可以根据自然原理生成全新的蛋白质序列,还可以在有监督的精调后进行可编程的生成。这些结果凸显了 xTrimoPGLM 在理解和生成蛋白质序列方面的重大能力和多功能性,在蛋白质科学基础模型的发展中具有重要意义。
Jan, 2024
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖 8 个语言类别和 32 个领域,包括来自 444 个数据集的统计信息,共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据;旨在为研究人员提供整个 LLM 文本数据集的全貌,并为未来的研究做出贡献。
Feb, 2024
FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集,比其他公开预训练数据集产生更好性能的大型语言模型(LLM)。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力,我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。
Jun, 2024