用两阶段方法超越 GPT-4 医学编码

Nov, 2023

Surpassing GPT-4 Medical Coding with a Two-Stage Approach

Zhichao Yang, Sanjit Singh Batra, Joel Stremmel, Eran Halperin

TL;DR用大型语言模型进行临床决策支持和医疗编码任务，提出 LLM-codex 方法，通过两个阶段生成证据提案和基于 LSTM 的验证阶段，同时实现医疗编码精度、稀有编码准确性和句级证据识别的最新结果，无需依赖人工标注的数据证据。

Abstract

Recent advances in large language models (LLMs) show potential for clinical applications, such as clinical decision support and trial recommendations. However, the GPT-4 LLM predicts an excessive number of

large language models llm-codex icd codes clinical decision support medical coding accuracy

发现论文，激发创造

利用现成大型语言模型进行自动临床编码

利用大型预训练生成语言模型开发出零样本和少样本编码分配的实用解决方案，通过信息提取，利用 ICD 本体论和专业临床编码任务描述，检索相关提及，并利用 GPT-4 在第二阶段进行元细化，实现了自动 ICD 编码的方法，无需任务特定的学习，而在更稀缺的类别上达到了最优的性能。

Oct, 2023

医学术语分类中的大型语言模型及响应与推理的意外不一致

本研究评估了 GPT-3.5、GPT-4、Falcon 和 LLaMA 2 等最先进的大型语言模型在从出院摘要中识别患有轻度认知障碍（MCI）的患者的能力，并检查模型响应与其推理不一致的情况。研究结果强调了提示工程的重要性和对 GPT-4 中观察到的意外推理 - 响应不一致性进一步探索的需求，突显了将大型语言模型应用于医疗诊断的潜力，前提是在方法论上取得进步以确保人工智能生成的输出准确性和临床连贯性，从而提高大型语言模型在医疗决策中的可信度。

Dec, 2023

大型语言模型是否理解医学编码？

我们研究了大型语言模型对医疗代码的理解能力，并发现这些模型不能理解医疗代码的含义，因此需要改进医疗代码在语言模型中的表示方式。

Mar, 2024

利用大型语言模型对历史死因数据进行编码

本研究探讨了使用预训练的生成型大语言模型 (GPT-3.5、GPT-4 和 Llama 2) 自动分配历史死因的 ICD-10 编码的可行性。研究结果显示，虽然 GPT-3.5、GPT-4 和 Llama 2 对于今天仍在使用的术语和短短的死因描述表现更好，但它们在历史 ICD-10 编码任务中的准确性仍然不足，建议进一步微调或采用其他框架以达到足够的性能。

May, 2024

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

自动医疗记录生成的持续预训练语言模型方法

LLMs 是 NLP 任务的革命性技术，但是像 GPT-4 这样功能强大的 LLM 对于大多数特定领域的场景来说价格过高。我们提出了第一个基于 13B Llama2 的连续训练的 LLM，该模型专门用于医学对话，并通过自动撰写进行了衡量。结果表明，我们的模型在 PubMedQA 中的准确度达到了 76.6％，并且在将医学对话总结为 SOAP 笔记方面与 GPT-4 的性能相当。值得注意的是，我们的模型能够捕捉更多正确的医学概念，超越 GPT-4，并以更高的正确性和完整性胜过人工撰稿人。

Mar, 2024

大型语言模型是否能够对医学问题进行推理？

研究了 GPT-3.5 在实际世界中具有强大推理能力和专业领域知识的应用能力，使用了多项提示方法（CoT、零和少量训练以及检索增强），并在医学考试和阅读理解领域取得了人类水平表现。

Jul, 2022

探索 LLM 多智能体用于 ICD 编码

本文介绍了一种新颖的基于多智能体方法的 ICD 编码方法，模仿真实世界的编码过程，并使用基于大型语言模型的模型进行编码。通过在 MIMIC-III 数据集上进行评估，我们展示了我们提出的多智能体编码框架在常见和罕见代码方面相对于零样本 CoT 提示和 CoT 的自一致性有显著的性能提升。消融研究证实了提出的智能体角色的有效性。我们的方法在编码准确性、罕见代码准确性和可解释性方面也达到了需要预训练或微调的 ICD 编码方法的最新水平。

Apr, 2024

开源大型语言模型 GPT-4 和 Claude 2 的比较研究：肾脏病学中的多项选择测试

该研究调查了大型语言模型（LLMs）在内科专科多项选择测试能力方面的医学知识能力，与 GPT-4 和 Claude 2 相比，当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。

Aug, 2023

LLM （如 GPT-4）是否能在痴呆症诊断中胜过传统人工智能工具？也许，但今天还没有

本研究探讨了大型语言模型（LLM），特别是 GPT-4，在痴呆症诊断中的潜力和局限，通过对两个真实临床数据集的实验结果表明，尽管 LLMs 具有未来进步的潜力，但目前在诊断准确性方面仍不及传统 AI 工具。

Jun, 2023