评估大型语言模型在高度专业化主题放射肿瘤物理学上的应用

Apr, 2023

评估大型语言模型在高度专业化主题放射肿瘤物理学上的应用

Evaluating Large Language Models on a Highly-specialized Topic, Radiation Oncology Physics

Jason Holmes, Zhengliang Liu, Lian Zhang, Yuzhen Ding, Terence T. Sio...

TL;DR本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试，将四个 LLM（ChatGPT（GPT-3.5），ChatGPT（GPT-4），巴德（LaMDA）和 BLOOMZ）与医学物理学家和非专业人员进行了评估。ChatGPT（GPT-4）平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT（GPT-4）在被激发先解释，然后再回答的情况下表现得更好。ChatGPT（GPT-4）展示了出人意料的准确性，表明了一种新颖的推理能力，但存在固有属性以及无法通过大多数投票进一步提高得分。

Abstract

We present the first study to investigate large language models (LLMs) in answering radiation oncology physics questions. Because popular exams like AP Physics, LSAT, and GRE have large test-taker populations and

large language models radiation oncology physics exam chatgpt deductive reasoning

发现论文，激发创造

统一大型语言模型与本地微调模型在高度特化的放射学自然语言推理任务中的权衡探索

本文评估了 ChatGPT / GPT-4 在放射学自然语言推理任务上的性能，并将其与其他针对任务相关数据样本进行微调的模型进行比较。结果显示，构建能解决不同领域的各种任务的通用模型是可行的。

Apr, 2023

基于 ACR 放射肿瘤学培训考试 (TXIT) 的 ChatGPT-4 标准化测试：面向放射肿瘤学 AI 辅助教育和决策的潜力与挑战

本研究评估了 ChatGPT-3.5 和 ChatGPT-4 在放射肿瘤学领域的表现，结果表明 ChatGPT-4 在统计学、神经系统和眼科、儿科、生物学和物理学方面具有良好的知识，并在诊断、预后和毒性方面表现出色，但在播种治疗和剂量学等方面还有待提高。虽然 ChatGPT-4 尚不适用于放射肿瘤学的临床决策，但有望在医学教育和难度较高的临床案例方面发挥作用。

Apr, 2023

RadOnc-GPT：一种针对放射肿瘤学的大型语言模型

本文提出了 RadOnc-GPT，这是一个专为放射肿瘤治疗而设计的大型语言模型，通过先进的调优方法进行专项调优。RadOnc-GPT 在 Mayo Clinic 的放射肿瘤学患者记录和临床笔记的大型数据集上进行了微调。该模型在三个关键任务上进行了指令调优，包括生成放射治疗方案、确定最佳放射疗法，以及根据患者诊断详情提供诊断描述 / ICD 代码。将 RadOnc-GPT 生成的输出与通用大型语言模型的输出进行比较的放射肿瘤学家评估显示，RadOnc-GPT 的输出在清晰度、特异性和临床相关性方面有显著改善。本研究证明了使用像 RadOnc-GPT 这样通过领域特定知识进行调优的大型语言模型，在放射肿瘤学等高度专业的医疗领域实现转型能力的潜力。

Sep, 2023

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

利用模拟医学考题的方法评估大型语言模型在医学领域的表现，发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力，而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法，以更好地评估大型语言模型在医学背景下的真实能力。

Jun, 2024

评估儿科眼科中的多种大型语言模型

评估大型语言模型在儿科眼科学中的表现与医学生和医生的对比试验结果显示，大型语言模型有潜力为儿科眼科提供医疗援助，并具有指导医学生教育的重要能力。

Nov, 2023

在眼科中评估大型语言模型

本研究评估了三个不同的大型语言模型（GPT-3.5、GPT-4 和 PaLM2）在回答眼科专业问题方面的表现，并将其与三个不同的专业人员群体（医学本科生、医学硕士和主治医师）进行了比较。结果显示，GPT-4 代表的 LM 在眼科领域表现更好，未来在医学教育和临床决策方面将带来意想不到的好处。

Nov, 2023

LLM-RadJudge：X 光报告生成实现放射科医师级评估

使用大型语言模型对医学成像报告进行评估的一项新颖评估框架，通过与放射科医生评估结果的对比，提出了一种性能接近 GPT-4 的度量标准。为了降低成本并提高可访问性，利用语言模型评估结果构建数据集，进行了知识蒸馏以训练较小的模型，该模型的评估能力与 GPT-4 相当，为医学成像报告生成提供了一种易于使用和高效的评估方法，促进了更具临床相关性的模型的开发，该模型将进一步开源和提供可访问性。

Apr, 2024

利用专业放射科医师的专长提升放射学报告的 LLM 评估

利用大型语言模型进行人工智能辅助的放射学报告生成与评估研究，通过结合放射科医生专业知识并采用相关评估指标以提高医学报告质量评估水平。

Jan, 2024

Radiology-GPT：一种用于放射学的大型语言模型

本文介绍了 Radiology-GPT，它是专门为放射学领域设计的大型语言模型，通过在广泛的放射学领域知识数据集上进行指令调整，Radiology-GPT 在放射诊断、研究和沟通方面表现出优越性能，是未来临床自然语言处理发展的催化剂，并且为将生成型大型语言模型定位到特殊医疗专业方向提供了可能性，同时确保符合 HIPPA 的隐私标准。

Jun, 2023

评估 GPT-4 和 ChatGPT 在日本医学执照考试中的表现

本文旨在评估 ChatGPT，GPT-3 和 GPT-4 在日本语言医学执照考试上的表现，并提出了当前 LLM API 的关键局限性，包括产生不合适的词语以及因脚本语言不同带来的高昂成本和较小的上下文空间。

Mar, 2023