Apr, 2023

评估大型语言模型在高度专业化主题放射肿瘤物理学上的应用

TL;DR本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试,将四个 LLM(ChatGPT(GPT-3.5),ChatGPT(GPT-4),巴德(LaMDA)和 BLOOMZ)与医学物理学家和非专业人员进行了评估。ChatGPT(GPT-4)平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT(GPT-4)在被激发先解释,然后再回答的情况下表现得更好。ChatGPT(GPT-4)展示了出人意料的准确性,表明了一种新颖的推理能力,但存在固有属性以及无法通过大多数投票进一步提高得分。