Jun, 2023

超越炒作:评估 GPT3.5 的性能、可信度和临床适用性

TL;DR本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现,并与经过微调的 BERT 模型和放射科医生进行比较。结果显示,GPT3.5 在性能方面略逊于 BERT 和放射科医生,但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外,我们还发现了一些系统性错误,需要加以解决以提高其在临床中的使用安全性和适用性。