Jan, 2024

大型语言模型与监督建模在乳腺癌病理分类中零样本推理的比较研究

TL;DR通过对 769 份乳腺癌病理报告进行人工标注的数据集的研究,我们比较了 GPT-4 模型和 GPT-3.5 模型的零样本分类能力与三种模型架构的监督分类性能,发现 GPT-4 模型在所有 13 个任务中要么显著优于要么与最佳监督模型的 LSTM-Att 模型相当(平均宏 F1 得分为 0.83 vs. 0.75)。研究还表明,如果难以使用大规模标注数据集,LLMs 可以减轻数据标注的负担,但使用带有大规模标注数据集的简单监督模型也可以提供可比较的结果,LLMs 可以加快临床自然语言处理研究的执行速度,提高 NLP 变量和结果在临床观察研究中的利用率。