医疗研究中的自然语言处理样本量
本文揭示了一种有些反直觉的结论,即相对于非医学领域的 NLP 问题,医学 NLP 模型在小量标记数据的训练下表现出更好的效果,并通过使用最大的公共胸透放射学报告数据集之一的两个固定测试集,在异常分类任务上显示出训练数据大小对模型性能的影响。
Oct, 2020
本研究讨论了常见的小样本分类问题,通过绘制学习曲线计算训练样本集大小,确定测试样本集合适的大小,以验证分类器的性能,并使用单细胞的光谱数据集和大规模模拟来演示我们的研究结果。
Nov, 2012
本研究阐述了自然语言处理技术在电子病历上的应用存在的挑战和限制,以及研究人员使用机器学习、深度学习等技术进行处理和信息提取的相关领域和方法。
Jun, 2023
应用基于提示的大型语言模型在临床试验中基于资格标准对患者进行分类的研究提供了有希望的分数,并提出了一种利用 SNOMED CT 本体论进行提取式摘要的方法,该方法也可以应用于其他医学文本。
Apr, 2024
医疗环境中存在大量且多样化的数据,然而仅有少部分文本化电子健康数据被处理和解释,这导致了大数据操作的困难,研究致力于分析医疗领域的术语、自然语言处理和深度学习技术,以期提出相关解决方案。
Jan, 2024
利用临床数据训练的大型语言模型在医疗保健领域提供了优化患者护理、临床决策和工作流程的新机会,然而其潜力主要取决于其在不同临床环境和患者群体中有效泛化的能力,这是一个常常被低估的挑战。本研究评估了一种在 [HOSPITAL] 的临床病历上训练的语言模型的性能,并发现其在少样本的医院、政府和未指定保险的患者、老年人以及多重共病者中的泛化能力较差。通过统计和分类分析,我们发现样本大小、患者年龄、共病程度和病历内容的字数都与泛化能力相关。最后,我们比较了三种方法以提高泛化能力:本地微调(针对特定医院)、实例化增强微调、和基于聚类的微调。结果表明,本地微调是最有效的方法,可以使 AUC 提高 0.25% 到 11.74%(在数据有限的情况下效果最好)。总体来说,本研究为在医疗保健这一重要领域部署大型语言模型提供了新的见解,并改进了它们在更广泛人群中的性能。
Feb, 2024
本论文通过研究 MIMIC-III 数据集中的病历笔记,提出了一个基于自然语言处理模型的框架,通过挑选预测能力高的笔记部分来实现有效的信息提取,并在不同类型的笔记结合时提高了模型的性能。
Jul, 2023
通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、 更高效的专业化临床模型。
Feb, 2023
本文综述了当前神经自然语言处理方法在电子病历应用中的广泛运用,包括分类和预测,词嵌入,提取,生成以及其他诸如问答、表型、知识图谱、医学对话、多语言性和可解释性等领域。
Jul, 2021