GenoTEX: 基于 LLM 的基因表达数据探索与生物信息学家对齐的评估基准

Jun, 2024

GenoTEX: 基于 LLM 的基因表达数据探索与生物信息学家对齐的评估基准

GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians

Haoyang Liu, Haohan Wang

TL;DR通过引入 GenoTEX 作为一个基准数据集，我们展示了 LLM（大型语言模型）方法在基因组数据分析中的潜力，并提出了 GenoAgents 团队作为解决基因数据集任务的基线算法，同时也指出了改进的挑战和方向。

Abstract

Recent advancements in machine learning have significantly improved the identification of disease-associated genes from gene expression datasets. However, these processes often require extensive expertise and manual effort, limiting their scalability. →

machine learning gene identification large language model genotex genoagents

发现论文，激发创造

GeneAgent：基于领域数据库的基因集知识发现的自验证语言代理

GeneAgent 是一种独特的语言机器人，具备自我验证功能，通过与生物数据库的交互和相关领域知识的利用，提高准确性和减少幻觉事件，在基于 1,106 个来自不同来源的基因集的基准测试中，GeneAgent 始终明显优于标准的 GPT-4，并经过详细的手动审核，证实其自我验证模块的有效性，可以产生更可靠的分析叙述，应用 GeneAgent 到来自小鼠 B2905 黑色素瘤细胞系的七个新基因集中，专家评估显示 GeneAgent 提供了基因功能的新见解，从而加速了知识发现。

May, 2024

基于基因表达数据的科学发现的 AI 科学家团队

利用团队人工智能科学家的新框架，通过机器学习大语言模型协同工作以提高科学探索的效率和范围，实现自动化科学发现。这一框架以疾病预测基因鉴定为重点，并使用一个参考数据集评估其有效性。

Feb, 2024

GeneGPT：教导大型语言模型使用 NCBI Web APIs

本文介绍了 GeneGPT，一种利用 Web 应用程序编程接口解决基因组学问题的大型语言模型（LLMs）的新方法。在经过少量 NCBI API 调用的 URL 请求演示后，GeneGPT 能够提供具有状态良好的结果，并且优于其他一些先进的 LLMs，例如 GPT-3 和 ChatGPT。

Apr, 2023

Geneverse: 用于基因组学和蛋白质组学研究的开源多模态大型语言模型集合

基因组学和蛋白质组学研究中的大型语言模型（LLMs）应用前景广阔。我们提出了一种名为 Geneverse 的针对基因组学和蛋白质组学研究中三个创新任务的经过微调的 LLMs 和多模态 LLMs（MLLMs）集合。Geneverse 模型基于领域特定的数据集进行训练和评估，我们使用高级的参数高效微调技术来实现模型适应性，包括生成基因功能描述、从蛋白质结构推理蛋白功能以及从空间转录组数据中选择标记基因。我们证明经过调适的 LLMs 和 MLLMs 在这些任务中表现良好，可能在准确性和结构正确性方面优于基于闭源的大规模模型。我们所使用的所有训练策略和基本模型均可以免费获取。

Jun, 2024

评估大型语言模型在基因集功能发现中的应用

OpenAI 的 GPT-4 是一个基于生物医学知识的大型语言模型，能够从嵌入式知识中提出关于普遍基因功能的假设，为基因集分析提供可靠的功能概述和支持。

Sep, 2023

使用大语言模型进行基因集总结

本研究提出了一种基于 GPT 模型的新的基因集功能摘要方法，该方法使用结构化文本、自由叙述基因概要或直接模型检索等来源来生成 GO 术语列表，但并不能依靠本方法来代替标准术语富集分析，手动筛选方法仍然必要。

May, 2023

DocGenome：用于训练和测试多模态大型语言模型的开放式大规模科学文档基准

通过提取自科学文档中的多模态数据，并评估大型模型处理科学文档任务的能力，对科学文档记录的研究发现和有价值的人类知识进行综合性的数据分析是有意义的。我们介绍了 DocGenome，这是一个结构化文档基准，通过我们的自定义自动标注流水线对 arXiv 开放访问社区中的 153 个学科的 50 万份科学文档进行注释，它具有完整性、逻辑性、多样性和正确性等四个关键特征。我们进行广泛的实验证明了 DocGenome 的优势，并客观评估了大型模型在我们的基准上的性能。

Jun, 2024

生物信息学研究中大型语言模型的评价

基于大型语言模型（LLMs）的研究和应用在生物信息学领域有着巨大潜力和效力，该研究通过分析各种关键生物信息学任务，证明了 LLMs（如 GPT 变体）在给定适当提示的情况下可以成功处理大多数任务，同时也分析了在复杂生物信息学任务中的局限性。

Feb, 2024

Texygen: 文本生成模型基准测试平台

Texygen 是一个支持对开放域文本生成模型进行研究的基准测试平台，它实现了大多数文本生成模型，并涵盖了一组用于评估生成文本的多样性、质量和一致性的度量标准。该平台有助于标准化文本生成研究，促进研究人员共享调整优化的开源实现，并改善未来文本生成研究工作的再现性和可靠性。

Feb, 2018

CRISPR-GPT: 基因编辑实验自动设计的 LSTM 代理

介绍了 CRISPR-GPT，一个加强了领域知识和外部工具的 LLM 代理，用于自动化和增强 CRISPR 基因编辑实验设计过程，并展示了其对非专业研究人员进行基因编辑实验的潜力和有效性，同时探讨了自动化基因编辑设计的伦理和法规问题。

Apr, 2024