用两阶段方法超越 GPT-4 医学编码
利用大型预训练生成语言模型开发出零样本和少样本编码分配的实用解决方案,通过信息提取,利用 ICD 本体论和专业临床编码任务描述,检索相关提及,并利用 GPT-4 在第二阶段进行元细化,实现了自动 ICD 编码的方法,无需任务特定的学习,而在更稀缺的类别上达到了最优的性能。
Oct, 2023
本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍(MCI)的患者的能力,并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求,突显了将大型语言模型应用于医疗诊断的潜力,前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性,从而提高大型语言模型在医疗决策中的可信度。
Dec, 2023
本研究探讨了使用预训练的生成型大语言模型 (GPT-3.5、GPT-4 和 Llama 2) 自动分配历史死因的 ICD-10 编码的可行性。研究结果显示,虽然 GPT-3.5、GPT-4 和 Llama 2 对于今天仍在使用的术语和短短的死因描述表现更好,但它们在历史 ICD-10 编码任务中的准确性仍然不足,建议进一步微调或采用其他框架以达到足够的性能。
May, 2024
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B 的提示调整版本)。
Mar, 2023
LLMs 是 NLP 任务的革命性技术,但是像 GPT-4 这样功能强大的 LLM 对于大多数特定领域的场景来说价格过高。我们提出了第一个基于 13B Llama2 的连续训练的 LLM,该模型专门用于医学对话,并通过自动撰写进行了衡量。结果表明,我们的模型在 PubMedQA 中的准确度达到了 76.6%,并且在将医学对话总结为 SOAP 笔记方面与 GPT-4 的性能相当。值得注意的是,我们的模型能够捕捉更多正确的医学概念,超越 GPT-4,并以更高的正确性和完整性胜过人工撰稿人。
Mar, 2024
研究了 GPT-3.5 在实际世界中具有强大推理能力和专业领域知识的应用能力,使用了多项提示方法(CoT、零和少量训练以及检索增强),并在医学考试和阅读理解领域取得了人类水平表现。
Jul, 2022
本文介绍了一种新颖的基于多智能体方法的 ICD 编码方法,模仿真实世界的编码过程,并使用基于大型语言模型的模型进行编码。通过在 MIMIC-III 数据集上进行评估,我们展示了我们提出的多智能体编码框架在常见和罕见代码方面相对于零样本 CoT 提示和 CoT 的自一致性有显著的性能提升。消融研究证实了提出的智能体角色的有效性。我们的方法在编码准确性、罕见代码准确性和可解释性方面也达到了需要预训练或微调的 ICD 编码方法的最新水平。
Apr, 2024
该研究调查了大型语言模型(LLMs)在内科专科多项选择测试能力方面的医学知识能力,与 GPT-4 和 Claude 2 相比,当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。
Aug, 2023
本研究探讨了大型语言模型(LLM),特别是 GPT-4,在痴呆症诊断中的潜力和局限,通过对两个真实临床数据集的实验结果表明,尽管 LLMs 具有未来进步的潜力,但目前在诊断准确性方面仍不及传统 AI 工具。
Jun, 2023