Pyclipse，用于自由文本临床笔记去识别的库

Nov, 2023

Pyclipse，用于自由文本临床笔记去识别的库

Pyclipse, a library for deidentification of free-text clinical notes

Callandra Moore, Jonathan Ranisau, Walter Nelson, Jeremy Petch, Alistair Johnson

TL;DR通过统一可配置的评估流程，pyclipse框架提供了对临床文本数据进行自动去识别算法比较的单一界面，以改善算法性能评估的复现性和准确性，从而增强临床自然语言处理的患者保护能力。

Abstract

automated deidentification of clinical text data is crucial due to the high cost of manual deidentification, which has been a barrier to sharing clinical text and the advancement of clinical natural language proc

发现论文，激发创造

基于神经语言模型的可共享合成临床记录自动生成技术的研究

研究使用生成模型生成合成临床笔记，以更好地保护患者隐私并促进临床 NLP 模型的开发。

May, 2019

改进上下文化神经语言模型的临床笔记表型描述

通过对临床记录进行语义学分析，可以帮助精确地提取出患者的病情，进而为医疗决策和医疗档案二次利用提供支持；本研究探索了几种基于BERT模型的病情提取机制，避免了传统的手工规则的繁琐操作，实验结果表明这种机制在病情识别上具有较高的性能，可适用于医学领域的实际应用。

Oct, 2019

EHRKit：面向电子健康档案文本的Python自然语言处理工具包

本文介绍了EHRKit python库，该库包含两个主要部分，MIMIC-III特定功能和任务特定功能，通过访问MIMIC-III NOTEEVENTS数据并整合多个第三方库，以处理包括实体识别、文本摘要、机器翻译等12个NLP任务的临床文本。

Apr, 2022

无监督的临床笔记片段提取、标记和聚类

本文提出一种无监督的文本信息抽取方法，应用于捷克乳腺癌患者的临床记录中，以提取、分类和聚类具有特定临床特征的文本片段，证明提出方法在捷克样本中为构建更复杂的信息抽取和分析工具提供了实用价值。

Nov, 2022

利用有限的上下文长度发挥最大的预测能力：预测能力因临床记录类型和记录部分而异

本论文通过研究MIMIC-III数据集中的病历笔记，提出了一个基于自然语言处理模型的框架，通过挑选预测能力高的笔记部分来实现有效的信息提取，并在不同类型的笔记结合时提高了模型的性能。

Jul, 2023

基于合成临床记录的公开可分享临床大型语言模型

通过使用公开可获得的案例报告提取的合成大规模临床记录，创建合成大规模临床记录和使用真实临床记录评估的专业临床大语言模型Asclepius与其他大型语言模型GPT-3.5-turbo和其他开放源替代品进行比较，证明合成临床记录在构建高性能临床语言模型时可以作为可行的替代品，这一结论得到了GPT-4和医学专家的详细评估的支持。

Sep, 2023

利用自然语言处理进行临床自由文本去识别的当前方法综述

电子健康记录（EHRs）是数据驱动型医学研究的宝贵资源，而去识别（即去除个人健康信息）是使EHR数据可供研究目的共享的关键步骤。本研究系统审查了过去13年临床自由文本去识别的发展，并报告了目前最先进系统的性能和局限性，并识别了该领域的挑战和研究机会。

Nov, 2023

超越准确性：大规模真实世界临床文本数据的自动化去识别

构建一个自动化系统以去识别超过十亿条临床笔记，通过使用混合的基于上下文的模型体系结构，在可靠且链接的匿名文档方面提供实用的解决方案。

Dec, 2023

软虎：面向医疗工作流的临床基础模型

我们介绍了SoftTiger，这是一个临床大型语言模型（CLaM），旨在成为医疗保健工作流的基础模型。我们解决了将临床笔记按照国际互操作性标准转化为临床数据的关键问题，并通过公开和认证的临床数据进行了监督微调，使目标模型能够支持基本的临床任务，并学习执行更复杂的下游临床任务。此外，我们还解决了医疗保健背景中的模型挑战，并展示了SoftTiger在盲目对比评估中优于其他流行的开源模型和GPT-3.5，与Gemini-pro相媲美，仅与GPT-4略有差距。我们相信，大型语言模型可能成为医疗保健数字化和民主化的一个基石，因此，我们公开发布了规模为130亿和700亿参数的SoftTiger模型，以及创新的可扩展评估的数据集和代码，希望对医疗保健行业做出重要贡献。

Mar, 2024

临床小蟒: 横向临床记录的生成式临床语言模型

在医学领域，为了处理长期病例的复杂信息，我们引入了经过纵向临床笔记巨量预训练的专用语言模型ClinicalMamba，参数量为2.8亿，在建模扩展文本长度方面显示出比Mamba和临床Llama更优越的性能，且在纵向临床笔记信息提取任务中，通过少样本学习实现了快速而准确的成果，胜过了现有的临床语言模型和GPT-4等大规模通用领域模型。

Mar, 2024