促进临床文本的表型识别：medkit库

Aug, 2024

促进临床文本的表型识别：medkit库

Facilitating phenotyping from clinical texts: the medkit library

Antoine Neuraz, Ghislain Vaillant, Camila Arias, Olivier Birot, Kim-Tam Huynh...

TL;DR本研究解决了从电子健康记录中提取表型信息所面临的临床文本异质性和复杂性问题。作者开发了一个名为medkit的开源Python库，旨在简化表型管道的构建与评估，促进其复用和丰富。研究的主要发现是medkit不仅提高了开发效率，还为表型识别社区提供了共享的工具和资源，潜在推动了相关研究的发展。

Abstract

Phenotyping consists in applying algorithms to identify individuals associated with a specific, potentially complex, trait or condition, typically out of a collection of Electronic Health Records (EHRs). Because

发现论文，激发创造

基于电子病历的计算表型自然语言处理

文章综述了自然语言处理在电子健康记录领域的应用，重点介绍了计算表型学方法，包括基于关键词搜索和基于规则的系统等算法，以及监督式机器学习模型、深度学习和非监督式学习等最近受到关注的算法。同时文章指出在病历中特征关系的处理、模型可解释性和推广性等方面仍有待解决的问题。

Jun, 2018

改进上下文化神经语言模型的临床笔记表型描述

通过对临床记录进行语义学分析，可以帮助精确地提取出患者的病情，进而为医疗决策和医疗档案二次利用提供支持；本研究探索了几种基于BERT模型的病情提取机制，避免了传统的手工规则的繁琐操作，实验结果表明这种机制在病情识别上具有较高的性能，可适用于医学领域的实际应用。

Oct, 2019

MedCAT多领域临床自然语言处理：医学概念标注工具包

介绍了一种开源的医学概念注释工具(MedCAT)，该工具使用自我监督的机器学习算法从电子医疗记录中提取UMLS/SNOMED-CT概念，从而实现了对大量结构化文本的临床分析。该工具包括：自定义和训练IE模型的功能丰富的注释界面;以及与CogStack生态系统的集成用于厂商无关的卫生系统部署。现实世界的验证表明，该工具在大型伦敦医院的SNOMED-CT提取方面的性能表现很好，表明了跨领域的EHR-agnostic实用性，可加速临床和研究用例。

Oct, 2020

用medspaCy进入临床领域：一个新的Python临床文本处理工具包

介绍了medspaCy，这是一个基于spaCy框架的可扩展的、开源的临床自然语言处理（cNLP）库，它允许灵活地集成基于规则和基于机器学习的算法来适应临床文本，包括多种元素，可以满足常见的cNLP需求，如上下文分析和映射到标准术语。

Jun, 2021

EHRKit：面向电子健康档案文本的Python自然语言处理工具包

本文介绍了EHRKit python库，该库包含两个主要部分，MIMIC-III特定功能和任务特定功能，通过访问MIMIC-III NOTEEVENTS数据并整合多个第三方库，以处理包括实体识别、文本摘要、机器翻译等12个NLP任务的临床文本。

Apr, 2022

基于本体和弱监督的临床笔记罕见病识别

本文提出了一个基于本体和弱监督的方法，使用最近的BERT上下文表示进行文本表型处理，该方法可用于从临床笔记中识别出以往难以识别的罕见疾病的患者角色，无须领域专家的注释数据，可提高不少于30%至50%的精确度。

May, 2022

sEHR-CE: 结构化电子病历语言建模，用于高效和可推广的患者队列扩展

本文提出了一种基于Transformers的新型框架sEHR-CE，可以在不需要映射的情况下，对异构临床数据集进行集成表型和分析。使用预训练的语言模型来预测疾病表型的准确性高于非文本和单个术语方法，并且用2型糖尿病为例说明如何识别没有诊断但具有与患者相似临床特征的个体。

Nov, 2022

探索临床笔记表型的替代特征提取流程

通过使用ScispaCy从临床记录中提取常见疾病，训练各种监督学习模型来确定其与患者属性的相关性，并与ClinicalBERT和基于LSTM的方法进行比较，提出一种可作为现有方法的补充的替代方法。

Oct, 2023

MedGen: 用于医疗文本处理的Python自然语言处理工具包

MedGen是一个专为医学文本处理设计的全面自然语言处理（NLP）工具包，面向生物医学研究人员和医疗专业人员，提供易于使用的、一体化的解决方案，不需要编程专业知识。它包括生成功能、基本NLP功能和查询搜索功能，同时提供了领域特定的语言模型和与第三方库的集成。

Nov, 2023

提高从电子健康记录中提取临床事件上下文属性：一项比较研究

本研究针对电子健康记录中非结构化文本数据的临床事件提取效果不佳的问题，提出了一种新的方法，结合转化器模型BERT与类别不平衡缓解技术进行医疗文本分类。研究结果表明，经过优化的BERT模型在识别少数类的召回率上相较于Bi-LSTM模型提高了28%，为下游应用如疾病预测提供了更准确的数据提取工具。

Aug, 2024