大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

Jan, 2024

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes

HTML

PDF

Darren Liu, Cheng Ding, Delgersuren Bold, Monique Bouvier, Jiaying Lu...

TL;DR通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现GPT-4整体表现优于其他LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证LLMs在处理复杂医学数据方面的能力，并为将来在专门领域的LLM评估建立基准。

Abstract

The field of healthcare has increasingly turned its focus towards large language models (llms) due to their remarkable performance. However, their performance in actual →

发现论文，激发创造

医疗大语言模型综述：从数据、技术和应用到问责与伦理

大型语言模型在医疗领域的利用引发了劲头和担忧，本文概述了目前开发的大型语言模型在医疗保健方面的能力，并阐明它们的发展过程，旨在提供从传统预训练语言模型（PLMs）到大型语言模型（LLMs）的发展路线图的概览。总的来说，我们认为正在进行一次重大的范式转变，从PLMs过渡到LLMs，这包括从辨别式人工智能方法向生成式人工智能方法的转变，以及从以模型为中心的方法论向以数据为中心的方法论的转变。

Oct, 2023

医疗领域中的大型语言模型：综述

大型语言模型在医疗保健领域的部署引发了热情和忧虑，本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能，从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹，特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。

Dec, 2023

LongHealth：具有长医疗文件的问答基准

LLMs在处理医疗保健领域的大量患者记录方面具有潜在的优势，但现有的基准测试不能充分评估LLMs在处理真实世界中的冗长临床数据方面的能力。通过提供包含20个详细虚构病例的LongHealth基准测试，每个案例包含5090至6754个单词，我们评估了九个开源LLMs，并将OpenAI的专有成本效益高的GPT-3.5 Turbo作为比较。结果显示，Mixtral-8x7B-Instruct-v0.1在从单个和多个患者文档中检索信息的任务上表现最好，但所有模型在需要识别缺失信息的任务中遇到了很大困难，强调了临床数据解释中需要改进的关键领域。然而，当前LLMs的准确性水平对于可靠的临床使用是不足的，尤其是在需要识别缺失信息的情景中。LongHealth基准测试提供了在医疗保健环境中更真实的LLMs评估，并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。

Jan, 2024

医疗行业中评估大型语言模型应用的综合调研

综述探讨了在医疗保健领域中应用大型语言模型 (LLMs) 的广泛应用和必要的评估，强调了充分利用这些模型提升医疗保健结果的能力的关键验证需求。

Apr, 2024

医疗领域中的大型语言模型: 一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

医学领域的大型语言模型综述：技术、应用、可信度与未来发展方向

综述医疗大型自然语言模型（Med-LLM）的进化历史、技术、应用以及对医疗保健的影响，涵盖临床决策支持、报告生成、医学教育等方面，探索其潜力和限制，并讨论公平性、责任感、隐私保护和鲁棒性等挑战，展望未来的发展方向。

Jun, 2024

大型语言模型在数值和语义医学知识方面的性能表现：基于循证问题与答案的基准评估

临床问题解决需要处理语义医学知识，如疾病描述和诊断测试的数值医学知识进行循证决策。因此，我们评估了大型语言模型（LLMs）在数值和语义问题类型上的表现，并将其与人类进行比较。研究发现，LLMs在语义问题上的表现优于数值问题，在不同的医学方面存在差距，仍然不及人类，因此应该谨慎对待它们的医疗建议。

Jun, 2024

大型语言模型是否是真正的全才医护人员？超越医生考试进行健康专业基准测试

通过引入“中文医务人员考试”（EMPEC），我们在传统中文领域提出了一个规模庞大的医疗知识基准，它由 157,803 个考试题目组成，涵盖 124 个科目和 20 个医疗专业，包括眼科医生和听力学家等被较少涉及的职业。我们的实验表明，尽管 GPT-4 等领先模型的准确率超过 75％，但它们在特殊领域和替代医学方面仍然存在困难。意外的是，通用领域的大型语言模型表现优于专门的医疗模型，并且融入 EMPEC 的训练数据显著提高了性能。此外，模型在训练截止日期后发布的问题上的结果与整体性能趋势一致，说明测试集上的模型表现可以预测其解决未见过的与医疗相关的查询的效果。传统汉字向简化汉字的过渡对模型性能影响微乎其微，表明其具有强大的语言适应性。我们的研究强调了扩大基准范围以涵盖更广泛的医疗职业的重要性，以更好地评估大型语言模型在实际医疗场景中的适用性。

Jun, 2024

基于大型语言模型的系统回答实际临床问题

利用大型语言模型构建基于检索增强生成和创新研究的系统能为患者护理提供相关证据，提高医疗决策质量。

Jun, 2024