在眼科中评估大型语言模型

Nov, 2023

Evaluating Large Language Models in Ophthalmology

Jason Holmes, Shuyuan Ye, Yiwei Li, Shi-Nan Wu, Zhengliang Liu...

TL;DR本研究评估了三个不同的大型语言模型（GPT-3.5、GPT-4 和 PaLM2）在回答眼科专业问题方面的表现，并将其与三个不同的专业人员群体（医学本科生、医学硕士和主治医师）进行了比较。结果显示，GPT-4 代表的 LM 在眼科领域表现更好，未来在医学教育和临床决策方面将带来意想不到的好处。

Abstract

Purpose: The performance of three different large language models (LLMS) (GPT-3.5, GPT-4, and PaLM2) in answering ophthalmology professional questions was evaluated and compared with that of three different profe

language models ophthalmology professional levels average score clinical decision making

发现论文，激发创造

评估儿科眼科中的多种大型语言模型

评估大型语言模型在儿科眼科学中的表现与医学生和医生的对比试验结果显示，大型语言模型有潜力为儿科眼科提供医疗援助，并具有指导医学生教育的重要能力。

Nov, 2023

在眼科中对大型语言模型（LLM）人工智能聊天机器人进行微调并使用 GPT-4 进行 LLM 评估

通过与人类医学专家的对齐评估，评估 GPT-4 对由经过微调的 LLM 聊天机器人生成的与眼科相关的患者问题回答的准确性，结果显示 GPT-4 评估在临床一致性方面具有显著优势，有潜力简化 LLM 应用于医疗健康领域的临床评估，提供一种有效自动的评估方式来协助未来 LLM 应用的验证。

Feb, 2024

EyeGPT: 大型语言模型的眼科助理

通过三种优化策略，我们引入了专门设计用于眼科学的 EyeGPT，该模型的综合评估框架包括不同领域的眼科学数据集、不同用户和多样化的查询意图。该模型在可理解性、可信度和同理心方面与人类眼科医生相当，为开发专门的大型语言模型在眼科学中提供了有价值的见解。

Feb, 2024

GPT-4 在医疗挑战问题上的能力

通过对 USMLE 和 MultiMedQA 基准数据集的全面评估，我们发现不需要专门的提示造型来激发 GPT-4，它的表现超过了 USMLE 的合格分数约 20 分，并表现优于早期的通用模型（GPT-3.5）以及专门针对医学知识进行细化调整的模型（Med-PaLM，Flan-PaLM540B 的提示调整版本）。

Mar, 2023

开源大型语言模型 GPT-4 和 Claude 2 的比较研究：肾脏病学中的多项选择测试

该研究调查了大型语言模型（LLMs）在内科专科多项选择测试能力方面的医学知识能力，与 GPT-4 和 Claude 2 相比，当前广泛使用的开源 LLMs 在零 - shot 推理能力方面表现不佳。

Aug, 2023

评估大型语言模型在高度专业化主题放射肿瘤物理学上的应用

本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试，将四个 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4），巴德（LaMDA）和 BLOOMZ）与医学物理学家和非专业人员进行了评估。ChatGPT（GPT-4）平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT（GPT-4）在被激发先解释，然后再回答的情况下表现得更好。ChatGPT（GPT-4）展示了出人意料的准确性，表明了一种新颖的推理能力，但存在固有属性以及无法通过大多数投票进一步提高得分。

Apr, 2023

超越炒作：评估 GPT3.5 的性能、可信度和临床适用性

本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现，并与经过微调的 BERT 模型和放射科医生进行比较。结果显示，GPT3.5 在性能方面略逊于 BERT 和放射科医生，但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外，我们还发现了一些系统性错误，需要加以解决以提高其在临床中的使用安全性和适用性。

Jun, 2023

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023

评估 GPT-3.5 和 GPT-4 在支持医疗服务实际信息需求方面的作用

本文介绍了两个大型语言模型在医疗保健领域中的应用。在通过简单提示后，通过医师提交的问题来确定这两个模型是否可以以安全和一致的方式为信息需求服务。结果表明，虽然这两个模型能够提供安全和可信的响应，但往往不能满足给定问题的特定信息需求。

Apr, 2023

Ophtha-LLaMA2：一款用于眼科的大型语言模型

在医学领域中，通过使用预训练的大型语言模型（LLMs），我们成功构建了一个特别针对眼科疾病诊断的 LLM，名为 “Ophtha-LLaMA2”，并证明了其在眼科诊断中表现出了令人满意的准确性和效率，为眼科医生提供了改进的诊断支持工具。同时，该研究也展示了 LLMs 在眼科领域中的潜力和前景。

Dec, 2023