开源语言模型在医学文本数据摘要中的比较分析

May, 2024

开源语言模型在医学文本数据摘要中的比较分析

Comparative Analysis of Open-Source Language Models in Summarizing Medical Text Data

Yuhao Chen, Zhimu Wang, Bo Wen, Farhana Zulkernine

TL;DR在医疗笔记和对话中，非结构化文本具有丰富的信息。最近大型语言模型（LLMs）的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能，超过了传统的文本分析方法。然而，在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究，特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs（如 Llama2 和 Mistral）在医疗摘要任务中的性能，使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制，支持为特定任务选择有效的 LLMs，并推进数字健康领域的知识发现。

Abstract

unstructured text in medical notes and dialogues contains rich information. Recent advancements in large language models (→

unstructured text medical notes large language models llms medical summarization

发现论文，激发创造

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023

临床文本摘要：大型语言模型的应用能超越人类专家

在本研究中，我们采用八个大型语言模型，在六个数据集和四个不同的摘要任务（放射学报告、患者问题、进展记录和医生 - 患者对话）上应用领域适应方法，系统评估了它们的效果，而且展示出最佳适应的大型语言模型的摘要相较于人工摘要在完整性和正确性方面更可取。此外，我们还将传统的自然语言处理指标与医生评分进行了相关性分析，以提高对这些指标与医生喜好的理解。最终，我们的研究证明了大型语言模型在多个临床文本摘要任务中超越人工专家，这意味着将大型语言模型整合到临床工作流程中可以减轻文档负担，使临床医生能够更多关注个性化患者护理和其他医学中不可替代的人工环节。

Sep, 2023

利用大型语言模型构建实际的现实会议摘要系统：实用视角

本研究通过评估和比较各种闭源和开源大型语言模型，探讨如何有效构建用于实际应用的会议摘要系统。研究结果表明，大多数闭源模型在性能方面更好，但即使在零 - shot 情况下，较小的开源模型如 LLaMA-2（7B 和 13B）仍可达到与大型闭源模型相当的性能。综合考虑闭源模型的隐私问题和使用经过微调的闭源模型的高成本，能够取得竞争性性能的开源模型更适合工业应用。在性能、成本和隐私问题之间取得平衡，LLaMA-2-7B 模型在工业应用中更具前景。总之，本文提供了使用大型语言模型进行实际业务会议摘要的实用见解，突显性能和成本之间的权衡。

Oct, 2023

面向专家级临床笔记生成的开源大型语言模型的适应性

在本研究中，我们展示了一个小型开源语言模型（LLMs）可以有效地从门诊患者 - 医生对话中生成高质量的临床笔记，通过包括持续预训练、监督微调和强化学习在内的综合的领域和任务特定的自适应过程。我们通过增强方法 DistillDirect，以 Gemini Pro 作为教师模型，在策略上进行了强化学习。我们的研究证明了训练较小、开源的 LLMs 以辅助临床文档编写的潜力和可行性，充分利用医疗机构对患者记录和领域专业知识的访问。

Apr, 2024

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024

在医学问题回答中探索大型语言模型的领域：观察和开放性问题

通过评估各种流行的大型语言模型对医学问题的知识，我们能够更好地了解它们作为一个群体的特性。从这次比较中，我们提供了初步的观察结果并提出了进一步研究的问题。

Oct, 2023

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

评估大型语言模型用于公共卫生分类和提取任务

基于对 LLMs 在公共卫生任务中的自动评估，将六个外部注释数据集与七个新的内部注释数据集相结合，评估 LLMs 在处理与健康负担、流行病学危险因素和公共卫生干预相关的文本中的性能，发现 Llama-3-70B-Instruct 是性能最好的模型，在 15 个任务中取得最佳结果。这些初步结果表明，LLMs 可能成为公共卫生专家从各种免费文本来源中提取信息，并支持公共卫生监测、研究和干预的有用工具。

May, 2024

开源大型语言模型 GPT-4 和 Claude 2 的比较研究：肾脏病学中的多项选择测试

该研究调查了大型语言模型（LLMs）在内科专科多项选择测试能力方面的医学知识能力，与 GPT-4 和 Claude 2 相比，当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。

Aug, 2023