Nov, 2023

利用深度主动学习识别公共临床笔记中的低资源运动功能信息

TL;DR在临床自然语言处理研究中,功能被越来越认识到是整体个人健康的一个重要指标。我们介绍了国际功能、残疾和健康分类(ICF)中 “移动性” 领域的第一个公开注释的数据集,旨在促进从自由文本临床记录中自动提取和分析功能信息。我们使用关键词扩展来构建候选句子池,采用基于密度代表性加权的委员会查询抽样的主动学习方法,为人工注释选择信息丰富的句子。我们训练了 BERT 和 CRF 模型,并使用这些模型的预测来指导选择新的句子进行后续注释迭代。我们的最终数据集包括 4,265 个句子,总共有 11,784 个实体,其中包括 5,511 个动作实体,5,328 个移动性实体,306 个辅助实体和 639 个数量实体。准确匹配的实体间的注释者一致性 (IAA) 为 0.72,部分匹配的 IAA 为 0.91。我们还训练和评估了常见的 BERT 模型和最先进的嵌套 NER 模型。动作的最佳 F1 分数为 0.84,移动性为 0.7,辅助为 0.62,数量为 0.71。实证结果显示了 NER 模型准确提取临床文本中的移动功能信息的潜力。我们公开的注释数据集的可用性将有助于进一步研究全面捕捉电子健康记录中的功能信息。