基于领域适应的大型语言模型性能评估 —— 生成医院病程简介的基准测试
在本研究中,我们采用八个大型语言模型,在六个数据集和四个不同的摘要任务(放射学报告、患者问题、进展记录和医生 - 患者对话)上应用领域适应方法,系统评估了它们的效果,而且展示出最佳适应的大型语言模型的摘要相较于人工摘要在完整性和正确性方面更可取。此外,我们还将传统的自然语言处理指标与医生评分进行了相关性分析,以提高对这些指标与医生喜好的理解。最终,我们的研究证明了大型语言模型在多个临床文本摘要任务中超越人工专家,这意味着将大型语言模型整合到临床工作流程中可以减轻文档负担,使临床医生能够更多关注个性化患者护理和其他医学中不可替代的人工环节。
Sep, 2023
在本研究中,我们展示了一个小型开源语言模型(LLMs)可以有效地从门诊患者 - 医生对话中生成高质量的临床笔记,通过包括持续预训练、监督微调和强化学习在内的综合的领域和任务特定的自适应过程。我们通过增强方法 DistillDirect,以 Gemini Pro 作为教师模型,在策略上进行了强化学习。我们的研究证明了训练较小、开源的 LLMs 以辅助临床文档编写的潜力和可行性,充分利用医疗机构对患者记录和领域专业知识的访问。
Apr, 2024
LLMs 在处理医疗保健领域的大量患者记录方面具有潜在的优势,但现有的基准测试不能充分评估 LLMs 在处理真实世界中的冗长临床数据方面的能力。通过提供包含 20 个详细虚构病例的 LongHealth 基准测试,每个案例包含 5090 至 6754 个单词,我们评估了九个开源 LLMs,并将 OpenAI 的专有成本效益高的 GPT-3.5 Turbo 作为比较。结果显示,Mixtral-8x7B-Instruct-v0.1 在从单个和多个患者文档中检索信息的任务上表现最好,但所有模型在需要识别缺失信息的任务中遇到了很大困难,强调了临床数据解释中需要改进的关键领域。然而,当前 LLMs 的准确性水平对于可靠的临床使用是不足的,尤其是在需要识别缺失信息的情景中。LongHealth 基准测试提供了在医疗保健环境中更真实的 LLMs 评估,并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。
Jan, 2024
通过医生评注和认定的方法,我们研究了三种通用大型语言模型(LLMs)在理解和处理真实世界临床笔记中的性能,并发现 GPT-4 整体表现优于其他 LLMs。此外,我们开发了一个全面的定性性能评估框架,旨在验证 LLMs 在处理复杂医学数据方面的能力,并为将来在专门领域的 LLM 评估建立基准。
Jan, 2024
在医疗笔记和对话中,非结构化文本具有丰富的信息。最近大型语言模型(LLMs)的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能,超过了传统的文本分析方法。然而,在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究,特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs(如 Llama2 和 Mistral)在医疗摘要任务中的性能,使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制,支持为特定任务选择有效的 LLMs,并推进数字健康领域的知识发现。
May, 2024
本文介绍了一种自动化的医院病程小结(BHC)摘要生成方法,该方法采用基于深度学习的抽取式和生成式摘要模型,在加入 SNOMED 医学概念本体论的指导下,取得了超越其他方法的表现。
Nov, 2022
本文系统总结了使用预训练语言模型( Pre-trained language models)的生物医学文本摘要的最新进展、挑战问题和未来方向,帮助我们更好地理解该领域的最新进展和使用预训练语言模型在生物信息学中的应用。
Apr, 2023
利用临床数据训练的大型语言模型在医疗保健领域提供了优化患者护理、临床决策和工作流程的新机会,然而其潜力主要取决于其在不同临床环境和患者群体中有效泛化的能力,这是一个常常被低估的挑战。本研究评估了一种在 [HOSPITAL] 的临床病历上训练的语言模型的性能,并发现其在少样本的医院、政府和未指定保险的患者、老年人以及多重共病者中的泛化能力较差。通过统计和分类分析,我们发现样本大小、患者年龄、共病程度和病历内容的字数都与泛化能力相关。最后,我们比较了三种方法以提高泛化能力:本地微调(针对特定医院)、实例化增强微调、和基于聚类的微调。结果表明,本地微调是最有效的方法,可以使 AUC 提高 0.25% 到 11.74%(在数据有限的情况下效果最好)。总体来说,本研究为在医疗保健这一重要领域部署大型语言模型提供了新的见解,并改进了它们在更广泛人群中的性能。
Feb, 2024
通过方面导向的总结来评估大型语言模型在心理健康咨询中的应用,研究发现任务特定的语言模型在心理咨询的各个方面表现出较好的综合性能。
Feb, 2024