利用语言模型预训练改进临床病历的层级病人分类
该研究通过分别使用堆叠去噪自编码器和段落向量模型来学习临床记录中与任务独立的密集患者表示。进而比较疾病分类等监督学习任务中,密集表示相较于传统的词袋模型的表现以及从医学概念中提取特征的表现。结果表明,密集表示在处理少量数据和缺少强语义信息的任务时有优势。最后,提出的新技术有助于强化模型可解释性。
Jul, 2018
本文提出了一种预测病历记录中病人的过去数据,包括人口统计学,检验,药物和过去的笔记,预测未来笔记内容的新型语言建模任务,并使用公开的、去个人化的MIMIC-III数据集训练生成模型。我们发现大部分笔记的内容都可以被预测,并且学习了许多常见的笔记模板。本文探讨了这样的模型如何在支持辅助笔记编写功能方面是有用的,比如错误检测和自动完成。
Aug, 2018
通过对临床记录进行语义学分析,可以帮助精确地提取出患者的病情,进而为医疗决策和医疗档案二次利用提供支持;本研究探索了几种基于BERT模型的病情提取机制,避免了传统的手工规则的繁琐操作,实验结果表明这种机制在病情识别上具有较高的性能,可适用于医学领域的实际应用。
Oct, 2019
本研究基于Transformers预训练的语言表示学习方法,将特定医学记录中的信息提取,映射到标准词汇中,并在医院死亡预测任务中测试不同输入格式的性能,结果表明使用提取的唯一概念和标准名称作为输入可以获得更好的性能。
Jul, 2022
本文提出了一种基于层次结构且充分利用电子病历中的信息进行医院死亡预测的方法:通过一种名为“TM-HGNN”的、基于高阶图神经网络的多层次分类方法,结合病历和层次结构信息,有效地提高了预测准确率。
May, 2023
本论文通过研究MIMIC-III数据集中的病历笔记,提出了一个基于自然语言处理模型的框架,通过挑选预测能力高的笔记部分来实现有效的信息提取,并在不同类型的笔记结合时提高了模型的性能。
Jul, 2023
该研究引入了最先进的自然语言处理技术(具体为掩蔽语言建模预训练)和伪标记的方法,以应对临床病历评估的挑战,提高效率和性能,并改变临床病历评估的潜力。
Jan, 2024
在医学领域,为了处理长期病例的复杂信息,我们引入了经过纵向临床笔记巨量预训练的专用语言模型ClinicalMamba,参数量为2.8亿,在建模扩展文本长度方面显示出比Mamba和临床Llama更优越的性能,且在纵向临床笔记信息提取任务中,通过少样本学习实现了快速而准确的成果,胜过了现有的临床语言模型和GPT-4等大规模通用领域模型。
Mar, 2024