Pyclipse,用于自由文本临床笔记去识别的库
通过对临床记录进行语义学分析,可以帮助精确地提取出患者的病情,进而为医疗决策和医疗档案二次利用提供支持;本研究探索了几种基于BERT模型的病情提取机制,避免了传统的手工规则的繁琐操作,实验结果表明这种机制在病情识别上具有较高的性能,可适用于医学领域的实际应用。
Oct, 2019
本文介绍了EHRKit python库,该库包含两个主要部分,MIMIC-III特定功能和任务特定功能,通过访问MIMIC-III NOTEEVENTS数据并整合多个第三方库,以处理包括实体识别、文本摘要、机器翻译等12个NLP任务的临床文本。
Apr, 2022
本文提出一种无监督的文本信息抽取方法,应用于捷克乳腺癌患者的临床记录中,以提取、分类和聚类具有特定临床特征的文本片段,证明提出方法在捷克样本中为构建更复杂的信息抽取和分析工具提供了实用价值。
Nov, 2022
本论文通过研究MIMIC-III数据集中的病历笔记,提出了一个基于自然语言处理模型的框架,通过挑选预测能力高的笔记部分来实现有效的信息提取,并在不同类型的笔记结合时提高了模型的性能。
Jul, 2023
通过使用公开可获得的案例报告提取的合成大规模临床记录,创建合成大规模临床记录和使用真实临床记录评估的专业临床大语言模型Asclepius与其他大型语言模型GPT-3.5-turbo和其他开放源替代品进行比较,证明合成临床记录在构建高性能临床语言模型时可以作为可行的替代品,这一结论得到了GPT-4和医学专家的详细评估的支持。
Sep, 2023
电子健康记录(EHRs)是数据驱动型医学研究的宝贵资源,而去识别(即去除个人健康信息)是使EHR数据可供研究目的共享的关键步骤。本研究系统审查了过去13年临床自由文本去识别的发展,并报告了目前最先进系统的性能和局限性,并识别了该领域的挑战和研究机会。
Nov, 2023
构建一个自动化系统以去识别超过十亿条临床笔记,通过使用混合的基于上下文的模型体系结构,在可靠且链接的匿名文档方面提供实用的解决方案。
Dec, 2023
我们介绍了SoftTiger,这是一个临床大型语言模型(CLaM),旨在成为医疗保健工作流的基础模型。我们解决了将临床笔记按照国际互操作性标准转化为临床数据的关键问题,并通过公开和认证的临床数据进行了监督微调,使目标模型能够支持基本的临床任务,并学习执行更复杂的下游临床任务。此外,我们还解决了医疗保健背景中的模型挑战,并展示了SoftTiger在盲目对比评估中优于其他流行的开源模型和GPT-3.5,与Gemini-pro相媲美,仅与GPT-4略有差距。我们相信,大型语言模型可能成为医疗保健数字化和民主化的一个基石,因此,我们公开发布了规模为130亿和700亿参数的SoftTiger模型,以及创新的可扩展评估的数据集和代码,希望对医疗保健行业做出重要贡献。
Mar, 2024
在医学领域,为了处理长期病例的复杂信息,我们引入了经过纵向临床笔记巨量预训练的专用语言模型ClinicalMamba,参数量为2.8亿,在建模扩展文本长度方面显示出比Mamba和临床Llama更优越的性能,且在纵向临床笔记信息提取任务中,通过少样本学习实现了快速而准确的成果,胜过了现有的临床语言模型和GPT-4等大规模通用领域模型。
Mar, 2024