利用大型语言模型预测肺癌患者预后
使用基于上下文的词表示法的自然语言处理方法,研究利用荷兰初级保健医生的患者医疗笔记进行早期肺癌预测的问题。使用大型Transformer预训练语言模型,调查软提示调整与传统模型微调,WEMs与PLMs的比较,以及在少数患者的笔记上训练模型的效果,发现软提示调整是标准模型微调的有效替代品,PLMs比WEMs表现更好,但当分类问题变得更加不平衡时更容易过拟合,而在小数量的患者笔记上训练模型的结果表现良好。
Mar, 2023
探讨了通用领域大型语言模型(如GPT-4 Turbo)能否通过手术过程描述和患者临床记录从电子健康记录中进行风险分层和预测术后结果指标。 对8个不同任务的预测性能进行了研究:ASA身体状态分类的预测、住院、重症监护室入院、非计划入院、住院死亡、PACU第一阶段持续时间、住院持续时间和重症监护室持续时间。 少量样本和思维链调控提高了几个任务的预测性能。 ASA身体状态分类的F1分数为0.50,重症监护室入院为0.81,住院死亡为0.86。 在所有提示策略中,持续时间预测任务的性能普遍较差。 当前一代大型语言模型能够协助临床医生进行围手术期风险分层的分类任务,并产生高质量的自然语言摘要和解释。
Jan, 2024
通过对769份乳腺癌病理报告进行人工标注的数据集的研究,我们比较了GPT-4模型和GPT-3.5模型的零样本分类能力与三种模型架构的监督分类性能,发现GPT-4模型在所有13个任务中要么显著优于要么与最佳监督模型的LSTM-Att模型相当(平均宏F1得分为0.83 vs. 0.75)。研究还表明,如果难以使用大规模标注数据集,LLMs可以减轻数据标注的负担,但使用带有大规模标注数据集的简单监督模型也可以提供可比较的结果,LLMs可以加快临床自然语言处理研究的执行速度,提高NLP变量和结果在临床观察研究中的利用率。
Jan, 2024
本研究旨在调查利用GPT3.5-turbo(GPT3.5)进行放射学报告的TNM分级的准确性及多语种LLMs在日语和英语中的实用性。通过分析多语言TNM定义对准确性的影响,研究表明提供完整的TNM定义可明显提高放射学报告的分类准确性,且多语种LLMs在放射学领域具有潜在应用价值。
Jun, 2024
该研究提出了CancerLLM模型,该模型具有70亿个参数和Mistral风格的架构,预先训练了2,676,642份临床笔记和515,524份病理报告,涵盖了17种癌症类型,并在三个与癌症相关的任务上进行了微调,包括癌症表型提取、癌症诊断生成和癌症治疗计划生成。评估结果表明,CancerLLM相对于其他现有的语言模型取得了最先进的结果,平均F1得分提高了8.1%。此外,CancerLLM在两个提出的鲁棒性测试中表现优于其他模型,这表明CancerLLM可以有效应用于临床AI系统,增强了癌症领域的临床研究和医疗服务。
Jun, 2024
本研究解决了肺癌淋巴结转移(LNM)预先诊断准确性不足的问题。论文提出了一种新颖的集成方法,将大语言模型(LLM)学习到的医学知识与机器学习模型识别的潜在模式结合,以提升LNM预测性能。研究结果显示,GPT-4o能够有效整合医学知识与机器学习输出,显著提高了预测准确性,为临床预测提供了新的思路。
Jul, 2024
本研究解决了肺癌淋巴结转移(LNM)预操作诊断不准确的问题,提出了一种新的集成方法,将大语言模型(LLMs)获得的医学知识与机器学习模型识别的潜在模式结合,以提升LNM预测性能。实验结果表明,GLPT-4o能够利用其医学知识和机器学习预测的概率,实现更准确的LNM预测,为临床风险预测提供了一种新范式。
Jul, 2024
本研究解决了传统放疗生存预测模型因依赖结构化数据而缺乏准确性的问题。通过使用大型语言模型对非结构化电子健康记录进行构建,研究发现该方法显著提高了生存预测的准确性,模型的C-index从0.737提高到0.820,展现了更好的可解释性和临床相关性。
Aug, 2024
本研究解决了传统生存预测模型在放疗中因数据结构不足而导致的精度问题。通过使用大型语言模型(LLM)对非结构化电子健康记录进行结构化,本研究显著提高了生存预测的准确性,相关指标的C-index从0.737提升至0.820,显示出在临床预测模型的准确性和可解释性上具有重要影响。
Aug, 2024
本研究旨在评估和比较经典机器学习模型与大型语言模型在预测COVID-19相关死亡率方面的表现,填补了这一领域的研究空白。研究表明,经典模型如XGBoost和随机森林在准确性上优于大型语言模型,但通过微调大型语言模型(如Mistral-7b),其预测能力显著提升,显示出潜在的应用前景。
Sep, 2024