基于 LLM 的部分识别在开源方面表现出色，但在现实世界应用中遇到困难

ACLApr, 2024

基于 LLM 的部分识别在开源方面表现出色，但在现实世界应用中遇到困难

LLM-Based Section Identifiers Excel on Open Source but Stumble in Real World Applications

Saranya Krishnamoorthy, Ayush Singh, Shabnam Tafreshi

TL;DR使用大型语言模型（LLMs）对电子健康记录（EHR）中的相关章节标题进行识别，发现 GPT-4 在零和少数样本情况下均能有效解决问题，并且在分段方面表现明显优于现有方法。然而，对于一个更难的真实世界数据集，GPT-4 难以表现良好，因此需要进一步研究和更难的评估标准。

Abstract

electronic health records (ehr) even though a boon for healthcare practitioners, are growing convoluted and longer every day. Sifting around these lengthy EHRs is taxing and becomes a cumbersome part of physician

electronic health records ehr machine learning large language models section headers

发现论文，激发创造

使用结构化纵向电子健康记录数据激励大规模语言模型进行零样本临床预测

针对结构化长期电子健康记录 (EHR) 数据与大型语言模型 (LLMs) 集成时的固有复杂性，本研究调查了像 GPT-4 这样的 LLMs 对 EHR 数据的适应性。特别关注其零样本能力，使其能够在并未明确训练的情况下进行预测。通过考虑特定的 EHR 特征 (如单位和参考范围)，采用与临床环境相一致的上下文学习策略，我们的寻求方法能够应对 EHR 数据的纵向、稀疏和知识注入的特性。通过对 MIMIC-IV 和 TJH 数据集进行综合实验，证明了我们精心设计的提示框架下，LLMs 在关键任务 (如死亡率、住院天数和 30 天再入院率) 的预测性能可以提高约 35％，在少样本情景中超越了机器学习模型。我们的研究强调了 LLMs 在提高临床决策能力方面的潜力，尤其是在没有标签数据的紧急医疗情况下，如新发疾病的爆发。可通过此 https URL 获得代码，以便能重现研究结果。

Jan, 2024

利用 LLMs 从电子病历中检索证据：可能性与挑战

使用大型语言模型（Flan-T5 XXL）从非结构化电子健康记录（EHR）数据中检索和总结与特定查询相关的论据，较传统信息检索方法更受放射科医生欢迎，但面临 LLMs 产生虚构证据的挑战。然而，模型的信心可能指示 LLMs 是否存在虚构，为解决此问题提供了潜在方法。

Sep, 2023

LLMs 加速医疗信息提取的注释

使用大型语言模型（LLMs）结合人类专家的方法，快速生成医疗文本注释的地面真实标签，从而减少人工注释负担并保持高准确性，为医疗健康领域的定制自然语言处理（NLP）解决方案提供了潜力。

Dec, 2023

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

医疗机构在电子健康档案上训练大型语言模型的考虑

通过对数据集大小、模型大小和使用电子健康记录数据进行 LLM 训练的成本进行分析，在医疗保健机构预算设定下，回答从头开始或从开源模型微调 LLM 的问题以及它们所能负担的最大 LLM 的大小的问题。这种分析为考虑数据规模、计算规模和培训预算提供了一个思考框架。

Aug, 2023

EHRmonize: 使用大型语言模型从电子病例中抽取医学概念的框架

EHRmonize 利用大型语言模型从电子健康档案中提取医疗概念，具有提高效率、减少标注时间的潜力，但仍需要临床专业医生的监督。该框架可作为一个 Python 包提供，有望加速健康研究和改善数据整合过程。

Jun, 2024

基于检索增强生成的大型语言模型在零样本疾病表型分类中的应用

通过使用零射击的基于大型语言模型的方法，结合检索增强生成和 MapReduce 技术，我们在肺动脉高压领域展示了一种有效识别疾病的方法，该方法在诊断中明显优于医生逻辑规则（F1 分数为 0.62 比 0.75），从而有望增强罕见疾病群体的识别和推动临床研究以及关注空缺的发现。

Dec, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

大型语言模型在令牌级临床命名实体识别中的困难

本研究探讨了专有和本地大型语言模型在基于标记的临床实体识别中的有效性，挖掘了这些模型在零样本提示、少样本提示、检索增强生成以及指令微调等实验中面临的困难，并提出了在医疗保健领域中应用大型语言模型的可能改进方法。

Jun, 2024

医疗大语言模型综述：从数据、技术和应用到问责与伦理

大型语言模型在医疗领域的利用引发了劲头和担忧，本文概述了目前开发的大型语言模型在医疗保健方面的能力，并阐明它们的发展过程，旨在提供从传统预训练语言模型（PLMs）到大型语言模型（LLMs）的发展路线图的概览。总的来说，我们认为正在进行一次重大的范式转变，从 PLMs 过渡到 LLMs，这包括从辨别式人工智能方法向生成式人工智能方法的转变，以及从以模型为中心的方法论向以数据为中心的方法论的转变。

Oct, 2023