本文介绍一种新的基准测试——DisKnE,用于评估疾病知识。该测试使用正例进行注释,并以对抗性的方式构建负例。在对临床/生物医学领域的预训练模型进行测试时,发现它们的表现大幅下降。
Jun, 2021
本研究介绍了一种新的基准测试套件,称为DR.BENCH,旨在开发和评估具有临床诊断推理能力的cNLP模型,这是第一个被设计为自然语言生成框架以评估预训练语言模型的临床任务套件。
Sep, 2022
本研究的重点是使用 DR.BENCH 这一包含6个任务的综合生成AI框架对领域内和领域外语言模型进行比较分析,发现多任务、经过临床训练的语言模型在DR.BENCH中的问题总结任务中表现超过了其一般领域的对应物,取得了28.55的ROUGE-L得分,显示出了为优化临床诊断推理任务而进行领域特定的训练的价值。
Jun, 2023
本研究介绍了一种专门为临床场景设计和优化的语言模型——ClinicalGPT,通过整合大量临床实际数据、领域特定知识和多轮次对话信息,使其更好地处理多种临床任务,并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型,突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。
通过将思路链式提示(CoT)拓展到医学推理领域,我们提出了诊断推理 CoT(DR-CoT)。实证结果表明,通过仅向仅训练于一般文本语料库的大型语言模型提供两个 DR-CoT 实例来指导,诊断准确性提高了 15%。此外,在领域外情景中,该差距达到显著的 18%。我们的研究结果表明,大型语言模型中可以通过适当的提示引出专家知识推理。
Jul, 2023
GPT4可以通过使用诊断推理提示模拟临床医生的常见临床推理过程,而不会损失诊断准确性,因此它可以为医生提供评估LLMs是否可信赖用于患者护理的手段。新的提示方法有潜力揭示LLMs的黑盒子,将它们推向在医学中安全有效使用的一步。
Aug, 2023
通过结合医学知识图谱和新颖的图模型Dr.Knows,我们提出一种创新的方法来提高大型语言模型在自动诊断生成领域的能力,从而消除预训练的需要,提高自动诊断生成的准确性。
临床推理是指医生在评估和管理患者时采用的认知过程,而自动临床推理方法利用大型语言模型和In-Context Padding框架提高了这一过程的效果。
Mar, 2024
本研究针对大型语言模型在疾病诊断中的应用进行了全面分析,填补了目前研究中对特定疾病和模型技术的探讨不足。论文提出了数据预处理、模型选择和评估策略的指导方针,并概述了当前研究的局限性与未来方向。研究结果为利用大型语言模型进行疾病诊断提供了蓝图,有助于未来研究的系统化和指导。
Aug, 2024
本研究解决了现有模型在疾病诊断中忽视生成支持性推理的重要性,提出了一种名为ClinRaGen的新的小型语言模型(SLM),利用知识增强的注意机制,将领域知识与时间序列电子健康记录(EHR)数据相结合。研究表明,ClinRaGen显著提升了SLM处理多模态EHR数据和生成准确临床推理的能力,从而支持更可靠的疾病诊断,并推动LLM在医疗领域的应用进展。
Nov, 2024