使用大型语言模型进行临床文本的高通量表型分析
利用 ClinicalBert 和外部知识的无监督方法,能够在临床文本中进行数值推理以提取表型,相比无监督基准测试,综合召回率和F1得分的绝对增益分别高达79%和71%,并且在监督学习情况下,性能也优于替代方法,综合召回率和F1得分的绝对增益分别高达70%和44%。
Apr, 2022
研究跨语言知识转移策略用于非英语且领域内数据小的诊所中,证明了基于翻译方法与特定领域编码器相结合以及跨语言编码器和适配器可以超越当前最先进的方法。该研究发现这些策略对于分类罕见表型尤其有效,并建议根据具体情况选择使用哪种方法。结果表明,使用多语言数据可以改善临床表型模型并弥补数据稀缺。
Aug, 2022
本研究介绍了一种专门为临床场景设计和优化的语言模型——ClinicalGPT,通过整合大量临床实际数据、领域特定知识和多轮次对话信息,使其更好地处理多种临床任务,并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型,突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。
Jun, 2023
本研究借助新型提示学习方法,将ChatGPT模型用于罕见病实体识别当中并与传统微调方法对比,发现在一些罕见疾病和征象实体的识别方面,ChatGPT能够在只提供一个标记样本的情况下与传统微调方法相媲美,为罕见疾病的诊断和治疗提供了新的可能,但研究人员和临床医生应该审慎对待模型输出并清楚了解其局限性。
Jun, 2023
在使用真实的大型电子病历数据库进行两项分析后,发现ChatGPT和GPT-4可以通过思路链和几次提示,准确地完成疾病分类任务,并为卫生保健工作者提供诊断辅助,但是这些模型目前存在错误陈述、忽视重要医学发现、推荐不必要的调查和过度治疗等问题,并伴随有隐私问题,因此仍不适用于现实世界的临床使用。不过,与传统机器学习工作流程的配置相比,这些模型所需的数据和时间较少,突出了它们在卫生保健应用中的可扩展性潜力。
Jul, 2023
通过基于Transformer结构的大型语言模型(LLMs),我们可以自动检测临床表型术语,包括未记录在HPO中的术语。在本研究中,我们开发了两种模型:PhenoBCBERT,一种基于BERT的模型,利用Bio+Clinical BERT作为其预训练模型,和PhenoGPT,一种基于GPT的模型,可以从各种GPT模型(包括开源版本和专有版本)初始化。我们发现我们的方法可以提取更多的表型概念,包括HPO未描述的新概念。我们还对生物医学文献进行了案例研究,说明如何识别和提取新的表型信息。我们在多个方面比较了基于BERT和基于GPT的模型进行表型标记,包括模型架构、内存使用、速度、准确性和隐私保护。此外,我们还讨论了将否定步骤和HPO规范化层添加到Transformer模型中,以改进HPO术语标记。总之,PhenoBCBERT和PhenoGPT可以实现从临床记录和生物医学文献中自动发现表型术语,从而促进自动的下游任务,以获得关于人类疾病的新的生物学见解。
Aug, 2023
临床深度表型化和本体概念建模在罕见疾病患者的诊断和护理协调计划中起着重要作用。本研究使用大型语言模型评估了最新的生成预训练变压器模型在临床深度表型化的性能,结果表明这些模型在临床环境中的使用存在问题。
Sep, 2023
用大型语言模型和混合 NLP 模型(将词向量与机器学习分类器相结合)高准确度地进行医生笔记的高通量特征化,从而让大型语言模型成为医生笔记的高通量深度特征化的首选方法。
Mar, 2024
本研究比较了高通量表型化的三种计算方法:基于生成式人工智能的大型语言模型(LLM),利用深度学习进行跨度分类的自然语言处理(NLP)方法,以及将词向量与机器学习相结合的混合方法。采用 GPT-4(一种大型语言模型)的方法表现出卓越性能,表明大型语言模型可能成为医师笔记的高通量表型化的首选方法。
Jun, 2024
本研究解决了在生物医学领域中,多源基因组数据的复杂性和异质性带来的挑战,提出了GP-GPT这一首个专门用于基因-表型知识表示和基因组关系分析的大型语言模型。实验结果表明,GP-GPT在医学遗传信息检索和常见基因组分析任务中表现优异,超越了当前最先进的模型,显示出其在遗传疾病关系研究中的潜在应用价值。
Sep, 2024