ProtChatGPT: 面向理解蛋白质的大型语言模型

Feb, 2024

ProtChatGPT: 面向理解蛋白质的大型语言模型

ProtChatGPT: Towards Understanding Proteins with Large Language Models

Chao Wang, Hehe Fan, Ruijie Quan, Yi Yang

TL;DRProtChatGPT 通过自然语言学习和理解蛋白质结构，使用户能够上传蛋白质、提问和进行互动对话以生成全面答案，为蛋白质研究提供了新的可能性。

Abstract

protein research is crucial in various fundamental disciplines, but understanding their intricate structure-function relationships remains challenging. Recent Large Language Models (llms) have made significant st

protein research protchatgpt protein structures protein encoders llms

发现论文，激发创造

利用全局生成模型探索蛋白质序列空间

该研究总结了在蛋白质研究中使用语言模型的应用，包括设计新型人工蛋白质、使用非 Transformer 结构以及应用于定向进化方面。这些成果已经快速提升了蛋白质研究的发展和性能。

May, 2023

基于大型语言模型的分子发现与翻译: ChatGPT 视角

本文提出了一种基于大型语言模型的框架（MolReGPT），通过检索式提示范式在上下文中进行少量评估，并利用分子相似性原理从本地数据库检索类似分子及其文本描述来启用 LLMS，用于分子说明翻译以促进分子发现

Jun, 2023

生物信息学研究中大型语言模型的评价

基于大型语言模型（LLMs）的研究和应用在生物信息学领域有着巨大潜力和效力，该研究通过分析各种关键生物信息学任务，证明了 LLMs（如 GPT 变体）在给定适当提示的情况下可以成功处理大多数任务，同时也分析了在复杂生物信息学任务中的局限性。

Feb, 2024

ProtLLM：一种蛋白质与语言相互交织的蛋白质语言模型，以蛋白质作为词的预训练

我们提出了 ProtLLM，这是一个通用的跨模态大语言模型，用于蛋白质中心和蛋白质语言任务。ProtLLM 具有独特的动态蛋白质装配机制，能够处理自然语言文本与任意数量的蛋白质交织在一起的复杂输入。此外，我们提出了基于蛋白质作为单词的语言建模方法来训练 ProtLLM。通过开发专门的蛋白质词汇表，我们使模型能够从大量候选项中预测不仅自然语言，还包括蛋白质。另外，我们构建了一个大规模的交织蛋白质 - 文本数据集，名为 InterPT，用于预训练。该数据集全面包含蛋白质注释等结构化数据源和生物研究论文等非结构化数据源，从而赋予 ProtLLM 理解蛋白质的重要知识。我们在经典的监督蛋白质中心任务上评估了 ProtLLM，并探索了其新颖的蛋白质语言应用。实验证明，ProtLLM 不仅在蛋白质中心任务上表现出卓越性能，并且在蛋白质语言任务上具有零 - shot 和上下文学习能力。

Feb, 2024

ChatGPT 在超越英语方面的综合评估：多语言学习中的大型语言模型

本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现，揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差，需要进一步的研究来发展更好的模型和了解多语言学习。

Apr, 2023

CHATGPT 与语言模型的比较分析

本文比较了 ChatGPT 在自然语言处理领域中，在机器翻译、文本摘要、问答和语言生成等方面的表现，并使用自由质量（SQ）分数与每个类别中的主要算法进行了比较。通过有效的验证策略，安全性和可大规模采用 LLM 的示例总结了该论文的观点和结果。

Mar, 2023

ProtT3: 基于文本的蛋白质理解的蛋白质到文本生成

ProtT3 是一个框架，通过将 Protein Language Models 作为其蛋白质理解模块，使语言模型能够理解氨基酸序列，并实现有效的蛋白质到文本生成。

May, 2024

ChatGPT：从大型语言模型向大型知识模型发展

通过使用基于 transformer 的生成神经网络架构的 ChatGPT 和其他大型语言模型（LLM）在自然语言处理和图像合成等领域的惊人成功，许多研究人员对过程系统工程（PSE）中的潜在机会感到兴奋。然而，尽管它们在某些任务中非常有用，如撰写文件的初稿、代码编写辅助、文本摘要等，但它们在高度科学领域的成功受限于缺乏深度领域知识而无法推理、规划或解释。在这篇论文中，我们讨论了在化学工程领域开发这种系统面临的挑战和机遇。

May, 2024

Prot2Text: GNNs 与 Transformers 实现的多模态蛋白质功能生成

使用图神经网络和大型语言模型在编码器 - 解码器框架中，本研究提出了一种新颖的方法 Prot2Text，以自由文本形式预测蛋白质的功能，超越传统的二分类或多分类任务，该多模态方法综合蛋白质序列、结构和文本注释等多种数据类型，实现了对蛋白质功能的整体表示，提供了详细准确的描述，通过从 SwissProt 中提取多模态蛋白质数据集对模型进行评估，结果表明了多模态模型的转变性影响，特别是图神经网络和大型语言模型的融合，为研究人员提供了更准确预测蛋白质功能的强大工具，代码、模型和演示将公开发布。

Jul, 2023

分析使用 ChatGPT 解决入门编程任务的初学者程序员的聊天协议

通过分析大型语言模型（LLMs）与入门级编程学生的交互，我们了解到了学生们与 ChatGPT-3.5 等相关工具的互动情况，这将对未来的高等教育入门级编程课程的教学实践和指导产生积极影响。

May, 2024