利用深度主动学习识别公共临床笔记中的低资源运动功能信息

Nov, 2023

利用深度主动学习识别公共临床笔记中的低资源运动功能信息

Leveraging deep active learning to identify low-resource mobility functioning information in public clinical notes

Tuan-Dung Le, Zhuqi Miao, Samuel Alvarado, Brittany Smith, William Paiva...

TL;DR在临床自然语言处理研究中，功能被越来越认识到是整体个人健康的一个重要指标。我们介绍了国际功能、残疾和健康分类（ICF）中 “移动性” 领域的第一个公开注释的数据集，旨在促进从自由文本临床记录中自动提取和分析功能信息。我们使用关键词扩展来构建候选句子池，采用基于密度代表性加权的委员会查询抽样的主动学习方法，为人工注释选择信息丰富的句子。我们训练了 BERT 和 CRF 模型，并使用这些模型的预测来指导选择新的句子进行后续注释迭代。我们的最终数据集包括 4,265 个句子，总共有 11,784 个实体，其中包括 5,511 个动作实体，5,328 个移动性实体，306 个辅助实体和 639 个数量实体。准确匹配的实体间的注释者一致性 (IAA) 为 0.72，部分匹配的 IAA 为 0.91。我们还训练和评估了常见的 BERT 模型和最先进的嵌套 NER 模型。动作的最佳 F1 分数为 0.84，移动性为 0.7，辅助为 0.62，数量为 0.71。实证结果显示了 NER 模型准确提取临床文本中的移动功能信息的潜力。我们公开的注释数据集的可用性将有助于进一步研究全面捕捉电子健康记录中的功能信息。

Abstract

function is increasingly recognized as an important indicator of whole-person health, although it receives little attention in clinical natural language processing research. We introduce the first public annotated datas

function natural language processing research mobility domain annotated dataset ner models

发现论文，激发创造

低资源医学命名实体识别的嵌入转移：以患者流动为例的案例研究

通过对电子医疗记录的自动提取病人活动能力描述方法的分析和研究，我们发现领域适应的单词嵌入技术可用于病人活动能力的命名实体识别问题，并且在精确度和召回率方面均表现良好，但需要克服出现的巨大语言变异的挑战。

Jun, 2018

临床实体提取机器学习的稳健基准测试

本研究运用新的注释框架拟定临床实体抽取的评估标准，并发现现有的医学词汇一致性、数据标签限制、评估技术瓶颈等问题仍需要解决，因此提出了解决方案来推动临床实体识别和标准化的发展。

Jul, 2020

波兰自然语言推理和事实性 —— 专家基础数据集和基准

本文介绍了作者构建的一个涵盖波兰语自然语言中的事实现象的数据集，并使用基于 BERT 语言模型的 NLI 技术对其进行了预测，结果表明 BERT 模型在此任务中表现良好，但用于模型预测的语言特征需要人工制作，对于诸如 entitlement 等复杂情况的处理仍需要进一步研究。

Jan, 2022

面向中文临床文本的医疗信息标注和提取统一框架

该研究提供了一个医学信息提取的工程框架，其中包括医疗实体识别、关系提取和属性提取。通过深度学习技术和注释语料库，该系统可以高准确率地提取医学实体、关系和属性。

Mar, 2022

超越准确性：大规模真实世界临床文本数据的自动化去识别

构建一个自动化系统以去识别超过十亿条临床笔记，通过使用混合的基于上下文的模型体系结构，在可靠且链接的匿名文档方面提供实用的解决方案。

Dec, 2023

NEAR: 临床概念命名实体和属性识别

本研究提出了三种结构以实现多标签的命名实体识别，这三种方法是 BiLSTM n-CRF、BiLSTM-CRF-Smax-TF 和 BiLSTM n-CRF-TF。通过评估在 i2b2/VA 2010 和 i2b2 2012 共享任务数据集上的不同模型，本研究证明这些方法可以获得较高的准确性。

Aug, 2022

利用语言基础模型进行人类移动预测

本文提出了一种新的基于语言基础模型的时间序列模式挖掘流程，以用于人类移动预测任务，该模型通过引入特定提示将数值时间序列转换为句子，以便直接应用于现有语言模型，设计了一个 AuxMobLCast 流程用于预测每个 POI 的访客数量，结合了辅助 POI 分类和编码器 - 解码器架构，实证证明了该流程在移动性预测任务中发现序列模式的有效性，并在三个真实数据集上进行了评估，表现良好。

Sep, 2022

口语文本中的实体识别

我们研究了基于 BERT 模型的多种训练策略，旨在从口语化文本中识别出医疗领域的症状，并通过一系列实验发现了与这些训练策略相关的模型行为模式，提出了有效识别口语化文本中实体的训练策略设计原则。

Jan, 2024

基于现代命名实体识别技术的自由文本健康记录去识别化基准测试

本研究旨在探究采用基于深度学习的命名实体识别 (NER) 方法在坚持保留医疗数据隐私的前提下，如何更好地去识别和去除医疗记录中的敏感信息，进而使得医疗数据可以用于科学研究。其中，BiLSTM-CRF 被发现是最佳的编码 / 解码器组合方式之一；字符嵌入和 CRF 的使用倾向于在精度和召回率之间做出权衡；而单独使用 Transformer 作为上下文编码器的效果相对较差。未来的研究可以尝试结构化医疗文本以获得更好的语义和句法信息，以进一步提高 EHR 去识别效果。

Mar, 2021

基于 Few-Shot 的跨语言迁移方法用于混合代码临床文本的粗粒度去识别化

本文实证展示了预训练语言模型在多语言跨领域少样本学习任务中的交叉语言迁移特性，并将其应用于解决缺乏数据和真实世界挑战的混合代码（西班牙语 - 加泰罗尼亚语）临床笔记：保护个人隐私信息的命名实体识别。

Apr, 2022