使用 RoBERTa 和正则表达式从临床记录中提取牙周炎诊断

Nov, 2023

使用 RoBERTa 和正则表达式从临床记录中提取牙周炎诊断

Extracting periodontitis diagnosis in clinical notes with RoBERTa and regular expression

Yao-Shun Chuang, Chun-Teh Lee, Ryan Brandon, Trung Duong Tran, Oluwabunmi Tokede...

TL;DR利用文本处理和自然语言处理模型来挖掘临床笔记以诊断牙周炎，并评估命名实体识别模型在不同正则表达式方法上的性能。研究表明，随着正则表达式算法复杂度的增加，F1 分数从 0.3-0.4 增加到约 0.9。命名实体识别模型在评估指标中表现出优异的预测能力，简单的正则表达式方法达到 0.84-0.92，高级和组合方法达到 0.95-0.99。该研究以提供将命名实体识别方法和自然语言处理模型相结合从自由文本中提取目标信息并填补诊断遗漏的需求为例。

Abstract

This study aimed to utilize text processing and natural language processing (NLP) models to mine clinical notes for the diagnosis of periodontiti

text processing natural language processing periodontitis named entity recognition roberta transformer models

发现论文，激发创造

使用 GPT-J 与 RoBERTa 进行 NER 模型在电子牙科记录中的牙周诊断抽取

这项研究探讨了提示生成在命名实体识别（NER）任务中的可用性以及在不同设置下的性能。研究强调了种子质量而非数量对于给 NER 模型提供输入的重要性。

Nov, 2023

关系抽取在临床文档理解中的应用

该文介绍了一种文本挖掘框架，利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理，取得优异的实验结果，并构建了一个生物医学知识图谱。系统使用 Spark NLP 库提供的生产级、可伸缩、硬件优化、可训练和可调整的 NLP 框架。

Dec, 2021

BioNLP-OST 2019 中基于语言学的关系抽取和神经网络结构的嵌套命名实体识别

本篇论文介绍了我们参加 BioNLP Shared Tasks 2019 后在 Named Entity Recognition 和 Relation Extraction 方面的方法，我们的方法可以概括应用于不同语言的文本，包括英语和西班牙语，其中我们使用了语言特征，混合损失，多任务目标和令牌级合成策略以提高 Named Entity Recognition 的性能，使用基于字典的模糊和语义搜索来执行实体标准化，最后，我们的 Relation Extraction 系统使用带语言特征的 Support Vector Machine，并在相关任务上表现出色。

Oct, 2019

使用语言模型预训练的医疗命名实体识别模型

本文介绍了一种从非结构化电子医疗记录中提取结构化信息的方法，该方法通过自然语言处理技术和网络注释工具的组合应用，优化了使用少量训练数据训练的定制命名实体识别模型的性能，并展示了该技术与现有方法相比的优势。研究结果表明，在仅使用 50% 的训练数据的情况下，我们的方法训练的模型的 F1 得分可达到 0.734，而当前流行的方法训练的不带语言模型组件的 spaCy 模型的 F1 得分为 0.704。

Oct, 2019

大规模生物医学命名实体识别

通过在 Apache Spark 之上重新实现 Bi-LSTM-CNN-Char 深度学习架构，我们提出了一个单可训练的命名实体识别（NER）模型，该模型在七个公共生物医学基准测试中获得了新的最优结果，而不使用像 BERT 这样的重型上下文嵌入。该模型在生产级别代码库中作为开源 Spark NLP 库的一部分免费提供，并且可以扩展以支持其他人类语言，而不需要更改代码。

Nov, 2020

基于规则和机器学习方法的荷兰临床文本否定词检测评估

比较了三种荷兰临床笔记中否定检测的方法，并发现基于 biLSTM 模型和 RoBERTa 模型的检测系统精准度更高，可以在临床信息检索和决策支持系统中用于标签提取。

Sep, 2022

电子病历上乳腺癌表型 NLP 算法跨院评估

本研究通过乳腺癌表型提取任务，评估了基于 BERT 的临床自然语言处理模型在不同临床设置下的普适性。结果表明，CancerBERT 模型具有最佳的学习能力和普适性，并且模型的普适性与样本之间的相似度有关。

Mar, 2023

NEAR: 临床概念命名实体和属性识别

本研究提出了三种结构以实现多标签的命名实体识别，这三种方法是 BiLSTM n-CRF、BiLSTM-CRF-Smax-TF 和 BiLSTM n-CRF-TF。通过评估在 i2b2/VA 2010 和 i2b2 2012 共享任务数据集上的不同模型，本研究证明这些方法可以获得较高的准确性。

Aug, 2022

使用预训练语言模型的端到端命名实体识别和关系抽取

本文提出了一种基于神经元的端到端模型来联合提取实体和它们的关系，该模型不依赖于外部自然语言处理工具，而是集成了大量的预训练语言模型，在三个领域的五个数据集上，我们的模型可以与最先进的性能相提并论，有时甚至具有更高的性能。

Dec, 2019

基于 Transformer 模型的临床关系提取

研究比较了 BERT、RoBERTa 和 XLNet 三种 transformer 模型在临床关系抽取方面的性能，发现 RoBERTa-clinical 以 0.8958 的 F1-score 在 2018 MADE1.0 数据集上表现最好，XLNet-clinical 以 0.9610 的 F1-score 在 2018 n2c2 数据集上表现最好。在生物医学领域中，研究者们可以使用我们开发的开源工具包进行进一步的相关 NLP 任务分析。

Jul, 2021