口语文本中的实体识别
本研究介绍了一种基于 BERT 的命名实体识别(NER)模型,一个深度学习规范化模块以及一个半监督聚类模块构建的框架,用于从社交媒体中提取与 COVID-19 相关的症状词典,并对其进行标准化,以减少在基于社交媒体的公共卫生研究中的关键词匹配信息检索约束。
Jun, 2023
通过全面的实证评估,我们表明在生物医学文本中,受监督的微调方法仍然相关且比通用性的大型语言模型更有效,如 PubMedBERT 可以仅凭 5 个受监督示例就能在命名实体识别任务上超过 ChatGPT。
Apr, 2024
通过使用大规模语言模型与数据结合,本研究参与了一个在西班牙医学文档中检测症状、体征和发现的任务,旨在准确识别临床报告中的症状,并在医疗保健、生物医学自然语言处理领域发挥重要作用,为临床决策支持系统的开发和医疗专业人员的诊断和治疗规划提供帮助。
Jan, 2024
通过随机加权干扰和对比学习策略培训语言模型,并提出元预测器以区分社交媒体文本中的非健康和健康相关类别,实验证明该策略提高了语言模型的性能,元预测器在三个基准数据集上优于现有的健康提及分类预测器。
Oct, 2023
本研究通过乳腺癌表型提取任务,评估了基于 BERT 的临床自然语言处理模型在不同临床设置下的普适性。结果表明,CancerBERT 模型具有最佳的学习能力和普适性,并且模型的普适性与样本之间的相似度有关。
Mar, 2023
本文研究了一种基于多语言 BERT 的单一命名实体识别模型,使用多任务学习和分块更新规则等正则化策略优化模型,并证明在多种语言数据集上表现优于专注于单一语言模型,并能够进行零样本预测。
Nov, 2019
本文介绍了一种从非结构化电子医疗记录中提取结构化信息的方法,该方法通过自然语言处理技术和网络注释工具的组合应用,优化了使用少量训练数据训练的定制命名实体识别模型的性能,并展示了该技术与现有方法相比的优势。研究结果表明,在仅使用 50% 的训练数据的情况下,我们的方法训练的模型的 F1 得分可达到 0.734,而当前流行的方法训练的不带语言模型组件的 spaCy 模型的 F1 得分为 0.704。
Oct, 2019
该研究构建了一个临床文本挖掘系统,利用命名实体识别和深度学习模型优化了现有技术,能够从 COVID-19 研究数据集中提取潜在趋势和洞见,支持分布式集群计算以及新增实体类型或人类语言训练模型无需编程。
Dec, 2020