GPT 模型对于表型概念识别的评估

Sep, 2023

An evaluation of GPT models for phenotype concept recognition

Tudor Groza, Harry Caufield, Dylan Gration, Gareth Baynam, Melissa A Haendel...

TL;DR临床深度表型化和本体概念建模在罕见疾病患者的诊断和护理协调计划中起着重要作用。本研究使用大型语言模型评估了最新的生成预训练变压器模型在临床深度表型化的性能，结果表明这些模型在临床环境中的使用存在问题。

Abstract

Objective: clinical deep phenotyping plays a critical role in both the diagnosis of patients with rare disorders as well as in building care coordination plans. The process relies on modelling and curating patient profiles using →

clinical deep phenotyping ontology concepts generative pre-trained transformer models phenotype recognition large language models

发现论文，激发创造

利用大型语言模型增强临床笔记中的表型识别：PhenoBCBERT 和 PhenoGPT

通过基于 Transformer 结构的大型语言模型（LLMs），我们可以自动检测临床表型术语，包括未记录在 HPO 中的术语。在本研究中，我们开发了两种模型：PhenoBCBERT，一种基于 BERT 的模型，利用 Bio+Clinical BERT 作为其预训练模型，和 PhenoGPT，一种基于 GPT 的模型，可以从各种 GPT 模型（包括开源版本和专有版本）初始化。我们发现我们的方法可以提取更多的表型概念，包括 HPO 未描述的新概念。我们还对生物医学文献进行了案例研究，说明如何识别和提取新的表型信息。我们在多个方面比较了基于 BERT 和基于 GPT 的模型进行表型标记，包括模型架构、内存使用、速度、准确性和隐私保护。此外，我们还讨论了将否定步骤和 HPO 规范化层添加到 Transformer 模型中，以改进 HPO 术语标记。总之，PhenoBCBERT 和 PhenoGPT 可以实现从临床记录和生物医学文献中自动发现表型术语，从而促进自动的下游任务，以获得关于人类疾病的新的生物学见解。

Aug, 2023

利用大型语言模型识别和提取罕见疾病表型

本研究借助新型提示学习方法，将 ChatGPT 模型用于罕见病实体识别当中并与传统微调方法对比，发现在一些罕见疾病和征象实体的识别方面，ChatGPT 能够在只提供一个标记样本的情况下与传统微调方法相媲美，为罕见疾病的诊断和治疗提供了新的可能，但研究人员和临床医生应该审慎对待模型输出并清楚了解其局限性。

Jun, 2023

一种大型语言模型优于其他计算方法对医生笔记的高通量表型

本研究比较了高通量表型化的三种计算方法：基于生成式人工智能的大型语言模型（LLM），利用深度学习进行跨度分类的自然语言处理（NLP）方法，以及将词向量与机器学习相结合的混合方法。采用 GPT-4（一种大型语言模型）的方法表现出卓越性能，表明大型语言模型可能成为医师笔记的高通量表型化的首选方法。

Jun, 2024

对于患者表型，规则模型和深度学习模型的比较

本文研究了深度学习技术在自然语言处理中是否可以有效用于患者表型特征提取和预测，并与传统 NLP 方法进行比较。结果表明，卷积神经网络是一种性能优良且易解释的深度学习方法，可以有效提高患者表型预测的性能，降低注释复杂度，并自动学习与每个患者表型相关的短语。

Mar, 2017

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

利用大型语言模型（如 ChatGPT 或 GPT-4）作为临床助手的潜力和风险

在使用真实的大型电子病历数据库进行两项分析后，发现 ChatGPT 和 GPT-4 可以通过思路链和几次提示，准确地完成疾病分类任务，并为卫生保健工作者提供诊断辅助，但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题，并伴随有隐私问题，因此仍不适用于现实世界的临床使用。不过，与传统机器学习工作流程的配置相比，这些模型所需的数据和时间较少，突出了它们在卫生保健应用中的可扩展性潜力。

Jul, 2023

ChatGPT 的病例记录：语言模型与复杂临床问题

研究了人工智能 GPT4 和 GPT3.5 模型在诊断复杂临床病例时的准确性，结果发现模型在多次尝试后能够正确提供正确的诊断和必要的诊断测试，但在复杂、开放性的情况下存在局限性，未来研究应集中于评估模型在更大数据集上的性能和探索增强临床决策的人机协作策略。

May, 2023

使用 ChatGPT 进行零样本临床实体识别

本研究旨在探究以零注释方式进行临床命名实体识别任务中，OpenAI 开发的大型语言模型 ChatGPT 以两种不同提示策略的潜力。我们将其与 GPT-3 在类似的零注释情况下进行比较，以及使用来自 MTSamples 的一组合成临床笔记的精调 BioClinicalBERT 模型。研究发现，与 GPT-3 相比，ChatGPT 在零注释情况下表现优异，并且使用不同的提示策略可以过提高其性能。虽然 ChatGPT 的表现仍低于 BioClinicalBERT 模型，但本研究证明了 ChatGPT 在不需要注释的情况下进行临床 NER 任务的巨大潜力。

Mar, 2023

提高临床试验的患者招募效率：基于提示的学习模型应用

应用基于提示的大型语言模型在临床试验中基于资格标准对患者进行分类的研究提供了有希望的分数，并提出了一种利用 SNOMED CT 本体论进行提取式摘要的方法，该方法也可以应用于其他医学文本。

Apr, 2024

临床 GPT：基于多样医疗数据微调的大型语言模型和全面评估

本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT，通过整合大量临床实际数据、领域特定知识和多轮次对话信息，使其更好地处理多种临床任务，并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型，突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。

Jun, 2023