Jan, 2024
大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes
Darren Liu, Cheng Ding, Delgersuren Bold, Monique Bouvier, Jiaying Lu...
TL;DR通过医生评注和认定的方法,我们研究了三种通用大型语言模型(LLMs)在理解和处理真实世界临床笔记中的性能,并发现 GPT-4 整体表现优于其他 LLMs。此外,我们开发了一个全面的定性性能评估框架,旨在验证 LLMs 在处理复杂医学数据方面的能力,并为将来在专门领域的 LLM 评估建立基准。