RareBench:LLM 能否作为罕见病专家?
通过评估 LLMs(GPT-4、Gemini 和 GPT-3.5)在诊断能力方面,本研究展示了它们如何显著提高医学诊断的准确性和效率,强调在应用 LLMs 于医疗和临床实践时需要更加关注患者隐私和遵守相关法规,以及研究人类偏见对 LLMs 任务的影响,为在复杂的医疗环境中应用人工智能提供新的可能性。
May, 2024
该研究探讨了大型语言模型在医疗保健领域的应用,特别是在自我诊断方面,使用 Retrieval Augmented Generation 方法显示了在自我诊断任务中性能的潜力和改善。
May, 2024
本研究探讨了大型语言模型(LLM),特别是 GPT-4,在痴呆症诊断中的潜力和局限,通过对两个真实临床数据集的实验结果表明,尽管 LLMs 具有未来进步的潜力,但目前在诊断准确性方面仍不及传统 AI 工具。
Jun, 2023
通过使用零射击的基于大型语言模型的方法,结合检索增强生成和 MapReduce 技术,我们在肺动脉高压领域展示了一种有效识别疾病的方法,该方法在诊断中明显优于医生逻辑规则(F1 分数为 0.62 比 0.75),从而有望增强罕见疾病群体的识别和推动临床研究以及关注空缺的发现。
Dec, 2023
利用高质量手动和合成数据集,本研究在生物医学领域构建了一套专用医学模型,基于 Llama-3 系列进行了精细调优,展示了在各种医学基准测试上的令人惊叹的能力。同时,我们还开发了强大的擅长生物医学和一般奖励基准的奖励模型,进一步增强了生物医学 LLM 社区内的在线优先学习能力。
Jun, 2024
通过引入 “中文医务人员考试”(EMPEC),我们在传统中文领域提出了一个规模庞大的医疗知识基准,它由 157,803 个考试题目组成,涵盖 124 个科目和 20 个医疗专业,包括眼科医生和听力学家等被较少涉及的职业。我们的实验表明,尽管 GPT-4 等领先模型的准确率超过 75%,但它们在特殊领域和替代医学方面仍然存在困难。意外的是,通用领域的大型语言模型表现优于专门的医疗模型,并且融入 EMPEC 的训练数据显著提高了性能。此外,模型在训练截止日期后发布的问题上的结果与整体性能趋势一致,说明测试集上的模型表现可以预测其解决未见过的与医疗相关的查询的效果。传统汉字向简化汉字的过渡对模型性能影响微乎其微,表明其具有强大的语言适应性。我们的研究强调了扩大基准范围以涵盖更广泛的医疗职业的重要性,以更好地评估大型语言模型在实际医疗场景中的适用性。
Jun, 2024
通过对 USMLE 和 MultiMedQA 基准数据集的全面评估,我们发现不需要专门的提示造型来激发 GPT-4,它的表现超过了 USMLE 的合格分数约 20 分,并表现优于早期的通用模型(GPT-3.5)以及专门针对医学知识进行细化调整的模型(Med-PaLM,Flan-PaLM540B 的提示调整版本)。
Mar, 2023
将人工智能(AI)与临床诊断过程中的大型语言模型(LLMs)整合,可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试,评估 LLMs 在临床诊断中的能力,覆盖了多种临床病例的诊断,并包括与临床有关的任务,如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体,CliBench 能够深入了解 LLMs 在不同临床任务上的能力,从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。
Jun, 2024
大型语言模型(LLMs)在各种自然语言处理任务中表现出令人惊讶的性能。最近,结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs,并提供了指导各种医学应用的 LLMs 发展的方法。
Jun, 2024
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024