EMNLPSep, 2021

多分类环境下上下文同义词自监督检测:表型注释应用案例

TL;DR本研究提出了一个自我监督的预训练方法,利用浅层匹配的数据进行训练,能够检测出上下文同义词,该方法在稀疏多类设置(超过 15,000 个概念)中应用于从电子病历中提取表观信息,并通过数据增强技术解决类稀疏问题,实现了无监督表观概念注释的新 SOTA,精度和召回率的增益分别高达 4.5 和 4.0 个点,表明模型表现优异。经过少量标注数据的微调后,该模型在 BioBERT 和 ClinicalBERT 之上表现更出色,并且外部评估在三个 ICU 基准测试中也显示出使用我们的模型注释的表型作为特征的益处。