基于基准生物医学文本处理任务的大规模语言模型全面评估

Oct, 2023

基于基准生物医学文本处理任务的大规模语言模型全面评估

A Comprehensive Evaluation of Large Language Models on Benchmark Biomedical Text Processing Tasks

Israt Jahan, Md Tahmid Rahman Laskar, Chun Peng, Jimmy Huang

TL;DR最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估 LLMs 在基准生物医学任务中的性能。为此，我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知，这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个 LLM 能够胜过其他 LLMs，不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Abstract

Recently, large language models (LLM) have demonstrated impressive capability to solve a wide range of tasks. However, despite their success across various tasks, no prior work has investigated their capability in the b

large language models biomedical domain evaluation benchmark biomedical tasks zero-shot llms

发现论文，激发创造

医疗领域中的大型语言模型：一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

评估医学应用中的大型语言模型：一项调研

综述医学领域中大型语言模型评估的现状、挑战以及将其负责地整合到临床实践中所需的持续研究和创新。

May, 2024

通用到医疗应用的大型语言模型调查：数据集、方法论和评估

大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLMs 发展的方法。

Jun, 2024

医疗领域中的大型语言模型：综述

大型语言模型在医疗保健领域的部署引发了热情和忧虑，本综述论文探讨了针对医疗保健应用设计的现有大型语言模型的功能，从传统的预训练语言模型到目前的医疗保健领域的大型语言模型发展轨迹，特别关注临床语言理解任务的潜力以及性能评估、挑战和限制。

Dec, 2023

我们是否还需要临床语言模型？

通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、更高效的专业化临床模型。

Feb, 2023

生物医学和健康信息学中的大型语言模型：一项文献计量学综述

大型语言模型（LLMs）已经迅速成为生物医学和健康信息学（BHI）中重要的工具，通过检查 2022 年至 2023 年的研究文章和合作网络，本文献计量回顾旨在全面了解 LLMs 在 BHI 中的应用情况。它进一步探讨了 LLMs 如何改善医疗诊断、患者参与、电子健康档案管理和个性化医学等 BHI 领域的自然语言处理（NLP）应用。同时，它还讨论了在 BHI 中使用 LLMs 所面临的伦理关切和实际挑战，比如数据隐私和可靠的医疗建议。展望未来，我们考虑 LLMs 如何进一步改变生物医学研究以及医疗服务和患者结果。该综合回顾对于了解生物医学和健康信息学中 LLMs 的当前状态和未来潜力的相关人员，包括研究人员、临床医生和决策者，具有重要价值。

Mar, 2024

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

CliBench: 临床决策中大型语言模型在诊断、过程、实验室测试和处方方面的多方面评估

将人工智能（AI）与临床诊断过程中的大型语言模型（LLMs）整合，可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试，评估 LLMs 在临床诊断中的能力，覆盖了多种临床病例的诊断，并包括与临床有关的任务，如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体，CliBench 能够深入了解 LLMs 在不同临床任务上的能力，从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。

Jun, 2024

生物医学自然语言处理中的大型语言模型：基准、基线和建议

本研究通过实验验证了 GPT-3 和 GPT-4 在 8 个 BioNLP 应用中的性能表现，并对其识别错误进行了分析，提出了在 BioNLP 应用中使用 LLMs 的建议。

May, 2023

医学中的大型语言模型综述

在这篇论文中，我们回顾了大型语言模型（LLMs）的发展，重点关注医学 LLMs 的需求和应用。我们提供了现有模型的简要概述，旨在探索进一步的研究方向并使其对未来医学应用产生益处。我们强调了医学 LLMs 在应用中的优势，以及其发展过程中遇到的挑战。最后，我们提出了技术整合的方向来减轻挑战，并为医学 LLMs 的未来研究方向提供了建议，旨在更好地满足医学领域的需求。

May, 2024