文章综述了自然语言处理在电子健康记录领域的应用,重点介绍了计算表型学方法,包括基于关键词搜索和基于规则的系统等算法,以及监督式机器学习模型、深度学习和非监督式学习等最近受到关注的算法。同时文章指出在病历中特征关系的处理、模型可解释性和推广性等方面仍有待解决的问题。
Jun, 2018
通过对临床记录进行语义学分析,可以帮助精确地提取出患者的病情,进而为医疗决策和医疗档案二次利用提供支持;本研究探索了几种基于BERT模型的病情提取机制,避免了传统的手工规则的繁琐操作,实验结果表明这种机制在病情识别上具有较高的性能,可适用于医学领域的实际应用。
Oct, 2019
介绍了一种开源的医学概念注释工具(MedCAT),该工具使用自我监督的机器学习算法从电子医疗记录中提取UMLS/SNOMED-CT概念,从而实现了对大量结构化文本的临床分析。该工具包括:自定义和训练IE模型的功能丰富的注释界面;以及与CogStack生态系统的集成用于厂商无关的卫生系统部署。现实世界的验证表明,该工具在大型伦敦医院的SNOMED-CT提取方面的性能表现很好,表明了跨领域的EHR-agnostic实用性,可加速临床和研究用例。
Oct, 2020
介绍了medspaCy,这是一个基于spaCy框架的可扩展的、开源的临床自然语言处理(cNLP)库,它允许灵活地集成基于规则和基于机器学习的算法来适应临床文本,包括多种元素,可以满足常见的cNLP需求,如上下文分析和映射到标准术语。
Jun, 2021
本文介绍了EHRKit python库,该库包含两个主要部分,MIMIC-III特定功能和任务特定功能,通过访问MIMIC-III NOTEEVENTS数据并整合多个第三方库,以处理包括实体识别、文本摘要、机器翻译等12个NLP任务的临床文本。
Apr, 2022
本文提出了一个基于本体和弱监督的方法,使用最近的BERT上下文表示进行文本表型处理,该方法可用于从临床笔记中识别出以往难以识别的罕见疾病的患者角色,无须领域专家的注释数据,可提高不少于30%至50%的精确度。
May, 2022
本文提出了一种基于Transformers的新型框架sEHR-CE,可以在不需要映射的情况下,对异构临床数据集进行集成表型和分析。使用预训练的语言模型来预测疾病表型的准确性高于非文本和单个术语方法,并且用2型糖尿病为例说明如何识别没有诊断但具有与患者相似临床特征的个体。
Nov, 2022
通过使用ScispaCy从临床记录中提取常见疾病,训练各种监督学习模型来确定其与患者属性的相关性,并与ClinicalBERT和基于LSTM的方法进行比较,提出一种可作为现有方法的补充的替代方法。
Oct, 2023
MedGen是一个专为医学文本处理设计的全面自然语言处理(NLP)工具包,面向生物医学研究人员和医疗专业人员,提供易于使用的、一体化的解决方案,不需要编程专业知识。它包括生成功能、基本NLP功能和查询搜索功能,同时提供了领域特定的语言模型和与第三方库的集成。
Nov, 2023
本研究针对电子健康记录中非结构化文本数据的临床事件提取效果不佳的问题,提出了一种新的方法,结合转化器模型BERT与类别不平衡缓解技术进行医疗文本分类。研究结果表明,经过优化的BERT模型在识别少数类的召回率上相较于Bi-LSTM模型提高了28%,为下游应用如疾病预测提供了更准确的数据提取工具。
Aug, 2024