May, 2024

开源语言模型在医学文本数据摘要中的比较分析

TL;DR在医疗笔记和对话中,非结构化文本具有丰富的信息。最近大型语言模型(LLMs)的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能,超过了传统的文本分析方法。然而,在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究,特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs(如 Llama2 和 Mistral)在医疗摘要任务中的性能,使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制,支持为特定任务选择有效的 LLMs,并推进数字健康领域的知识发现。