口语文本中的实体识别

Jan, 2024

Entity Recognition from Colloquial Text

Tamara Babaian, Jennifer Xu

TL;DR我们研究了基于 BERT 模型的多种训练策略，旨在从口语化文本中识别出医疗领域的症状，并通过一系列实验发现了与这些训练策略相关的模型行为模式，提出了有效识别口语化文本中实体的训练策略设计原则。

Abstract

Extraction of concepts and entities of interest from non-formal texts such as social media posts and informal communication is an important capability for decision support systems in many domains, including healthcare, customer relationship management, and others. Despite the recent ad

concept extraction entity extraction colloquial texts healthcare bert-based model

发现论文，激发创造

运用深度学习简化社交媒体信息检索，为公共卫生研究提供服务

本研究介绍了一种基于 BERT 的命名实体识别（NER）模型，一个深度学习规范化模块以及一个半监督聚类模块构建的框架，用于从社交媒体中提取与 COVID-19 相关的症状词典，并对其进行标准化，以减少在基于社交媒体的公共卫生研究中的关键词匹配信息检索约束。

Jun, 2023

从生物医学文献中进行意图识别和实体提取

通过全面的实证评估，我们表明在生物医学文本中，受监督的微调方法仍然相关且比通用性的大型语言模型更有效，如 PubMedBERT 可以仅凭 5 个受监督示例就能在命名实体识别任务上超过 ChatGPT。

Apr, 2024

对西班牙临床文本进行症状识别的精调大型语言模型

通过使用大规模语言模型与数据结合，本研究参与了一个在西班牙医学文档中检测症状、体征和发现的任务，旨在准确识别临床报告中的症状，并在医疗保健、生物医学自然语言处理领域发挥重要作用，为临床决策支持系统的开发和医疗专业人员的诊断和治疗规划提供帮助。

Jan, 2024

提升社交媒体内容中健康提及检测的语言模型能力的独特训练策略

通过随机加权干扰和对比学习策略培训语言模型，并提出元预测器以区分社交媒体文本中的非健康和健康相关类别，实验证明该策略提高了语言模型的性能，元预测器在三个基准数据集上优于现有的健康提及分类预测器。

Oct, 2023

从临床对话中提取症状及其状态

该研究开发了两种新型深度学习模型，基于医疗文本数据集，旨在从临床会话中提取症状信息，针对模型性能进行全面评估，为医疗提供辅助应用方向。

Jun, 2019

用户生成文本中医学概念规范化的深度神经模型

本文使用神经网络解决医学文本中的概念标准化问题，实验结果表明神经网络能够更好地识别实体，并获得更好的语义表示。

Jul, 2019

电子病历上乳腺癌表型 NLP 算法跨院评估

本研究通过乳腺癌表型提取任务，评估了基于 BERT 的临床自然语言处理模型在不同临床设置下的普适性。结果表明，CancerBERT 模型具有最佳的学习能力和普适性，并且模型的普适性与样本之间的相似度有关。

Mar, 2023

使用 BERT 实现通用语言命名实体识别

本文研究了一种基于多语言 BERT 的单一命名实体识别模型，使用多任务学习和分块更新规则等正则化策略优化模型，并证明在多种语言数据集上表现优于专注于单一语言模型，并能够进行零样本预测。

Nov, 2019

使用语言模型预训练的医疗命名实体识别模型

本文介绍了一种从非结构化电子医疗记录中提取结构化信息的方法，该方法通过自然语言处理技术和网络注释工具的组合应用，优化了使用少量训练数据训练的定制命名实体识别模型的性能，并展示了该技术与现有方法相比的优势。研究结果表明，在仅使用 50% 的训练数据的情况下，我们的方法训练的模型的 F1 得分可达到 0.734，而当前流行的方法训练的不带语言模型组件的 spaCy 模型的 F1 得分为 0.704。

Oct, 2019

使用 Spark NLP 优化 COVID-19 研究的临床文档理解

该研究构建了一个临床文本挖掘系统，利用命名实体识别和深度学习模型优化了现有技术，能够从 COVID-19 研究数据集中提取潜在趋势和洞见，支持分布式集群计算以及新增实体类型或人类语言训练模型无需编程。

Dec, 2020