医疗研究中的自然语言处理样本量

Sep, 2023

医疗研究中的自然语言处理样本量

Sample Size in Natural Language Processing within Healthcare Research

Jaya Chaturvedi, Diana Shamsutdinova, Felix Zimmer, Sumithra Velupillai, Daniel Stahl...

TL;DR该研究提供了关于选择适当的样本大小和类别比例以及构建文本医疗数据分类器时预测预期性能的建议，模拟结果为样本大小计算提供了指导，也可在其他数据集上进行样本量估计计算。

Abstract

sample size calculation is an essential step in most data-based disciplines. Large enough samples ensure representativeness of the population and determine the precision of estimates. This is true for most quantitative studies, including those that employ →

sample size calculation text classification healthcare domain machine learning methods performance metrics

发现论文，激发创造

自然语言理解中样本量确定的重新审视

通过使用少量的训练样本来预测最大的可实现模型性能，以预测数据的质量和样本大小。

Jul, 2023

临床报告标注的收益递减

本文揭示了一种有些反直觉的结论，即相对于非医学领域的 NLP 问题，医学 NLP 模型在小量标记数据的训练下表现出更好的效果，并通过使用最大的公共胸透放射学报告数据集之一的两个固定测试集，在异常分类任务上显示出训练数据大小对模型性能的影响。

Oct, 2020

分类模型的样本量规划

本研究讨论了常见的小样本分类问题，通过绘制学习曲线计算训练样本集大小，确定测试样本集合适的大小，以验证分类器的性能，并使用单细胞的光谱数据集和大规模模拟来演示我们的研究结果。

Nov, 2012

电子病历中的自然语言处理与医疗决策：一项系统性综述

本研究阐述了自然语言处理技术在电子病历上的应用存在的挑战和限制，以及研究人员使用机器学习、深度学习等技术进行处理和信息提取的相关领域和方法。

Jun, 2023

提高临床试验的患者招募效率：基于提示的学习模型应用

应用基于提示的大型语言模型在临床试验中基于资格标准对患者进行分类的研究提供了有希望的分数，并提出了一种利用 SNOMED CT 本体论进行提取式摘要的方法，该方法也可以应用于其他医学文本。

Apr, 2024

通过自然语言处理和深度学习在电子健康数据分析中的进展

医疗环境中存在大量且多样化的数据，然而仅有少部分文本化电子健康数据被处理和解释，这导致了大数据操作的困难，研究致力于分析医疗领域的术语、自然语言处理和深度学习技术，以期提出相关解决方案。

Jan, 2024

医疗人工智能中的泛化性能评估

利用临床数据训练的大型语言模型在医疗保健领域提供了优化患者护理、临床决策和工作流程的新机会，然而其潜力主要取决于其在不同临床环境和患者群体中有效泛化的能力，这是一个常常被低估的挑战。本研究评估了一种在 [HOSPITAL] 的临床病历上训练的语言模型的性能，并发现其在少样本的医院、政府和未指定保险的患者、老年人以及多重共病者中的泛化能力较差。通过统计和分类分析，我们发现样本大小、患者年龄、共病程度和病历内容的字数都与泛化能力相关。最后，我们比较了三种方法以提高泛化能力：本地微调（针对特定医院）、实例化增强微调、和基于聚类的微调。结果表明，本地微调是最有效的方法，可以使 AUC 提高 0.25% 到 11.74%（在数据有限的情况下效果最好）。总体来说，本研究为在医疗保健这一重要领域部署大型语言模型提供了新的见解，并改进了它们在更广泛人群中的性能。

Feb, 2024

利用有限的上下文长度发挥最大的预测能力：预测能力因临床记录类型和记录部分而异

本论文通过研究 MIMIC-III 数据集中的病历笔记，提出了一个基于自然语言处理模型的框架，通过挑选预测能力高的笔记部分来实现有效的信息提取，并在不同类型的笔记结合时提高了模型的性能。

Jul, 2023

我们是否还需要临床语言模型？

通过实验研究表明相对较小的专业临床文本语言模型可在解析和理解电子健康记录方面显著优于大规模的综合性语言模型并且通过进行临床标记的预训练还可以实现更小、更高效的专业化临床模型。

Feb, 2023

电子病历中的非结构化数据神经自然语言处理：综述

本文综述了当前神经自然语言处理方法在电子病历应用中的广泛运用，包括分类和预测，词嵌入，提取，生成以及其他诸如问答、表型、知识图谱、医学对话、多语言性和可解释性等领域。

Jul, 2021