超越炒作：评估 GPT3.5 的性能、可信度和临床适用性

Jun, 2023

超越炒作：评估 GPT3.5 的性能、可信度和临床适用性

Beyond the Hype: Assessing the Performance, Trustworthiness, and Clinical Suitability of GPT3.5

Salmonn Talebi, Elizabeth Tong, Mohammad R. K. Mofrad

TL;DR本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现，并与经过微调的 BERT 模型和放射科医生进行比较。结果显示，GPT3.5 在性能方面略逊于 BERT 和放射科医生，但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外，我们还发现了一些系统性错误，需要加以解决以提高其在临床中的使用安全性和适用性。

Abstract

The use of large language models (LLMs) in healthcare is gaining popularity, but their practicality and safety in clinical settings have not been thoroughly assessed. In high-stakes environments like medical sett

large language models healthcare gpt3.5 medical image protocol assignment model evaluation

发现论文，激发创造

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023

利用专业放射科医师的专长提升放射学报告的 LLM 评估

利用大型语言模型进行人工智能辅助的放射学报告生成与评估研究，通过结合放射科医生专业知识并采用相关评估指标以提高医学报告质量评估水平。

Jan, 2024

大型语言模型准备好应用于医疗保健了吗？临床语言理解的比较研究

本研究通过对临床语言理解任务的全面评估和引入一种新的提示策略 —— 自问自答提示（SQP），来提高大型语言模型 (GPT-3.5、GPT-4 和 Bard) 在医疗相关任务中的性能，同时还提供了有关挑战性关系抽取任务误差分布和潜在改进方法的有价值洞察。此项研究为之后的研究和开发医疗应用奠定了基础。

Apr, 2023

临床 GPT：基于多样医疗数据微调的大型语言模型和全面评估

本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT，通过整合大量临床实际数据、领域特定知识和多轮次对话信息，使其更好地处理多种临床任务，并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型，突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。

Jun, 2023

在眼科中评估大型语言模型

本研究评估了三个不同的大型语言模型（GPT-3.5、GPT-4 和 PaLM2）在回答眼科专业问题方面的表现，并将其与三个不同的专业人员群体（医学本科生、医学硕士和主治医师）进行了比较。结果显示，GPT-4 代表的 LM 在眼科领域表现更好，未来在医学教育和临床决策方面将带来意想不到的好处。

Nov, 2023

医学研究与健康保健的生成式大型语言模型研究

本文使用 2770 亿行混合临床和英文文本的 GPT-3 架构，开发了一种名为 GatorTronGPT 的临床生成 LLM，以提高医学研究的生物医学自然语言处理。通过使用 GatorTronGPT 训练的合成自然语言处理模型的生成文本，性能优于使用现实临床文本训练的模型。在医生的图灵测试中，医生不能区分 GatorTronGPT 所生成的文本和人类所生成的文本。该研究为 LLMs 在医学研究和医疗保健中的机遇和挑战提供了深入的见解。

May, 2023

统一大型语言模型与本地微调模型在高度特化的放射学自然语言推理任务中的权衡探索

本文评估了 ChatGPT / GPT-4 在放射学自然语言推理任务上的性能，并将其与其他针对任务相关数据样本进行微调的模型进行比较。结果显示，构建能解决不同领域的各种任务的通用模型是可行的。

Apr, 2023