多分类环境下上下文同义词自监督检测：表型注释应用案例

EMNLPSep, 2021

多分类环境下上下文同义词自监督检测：表型注释应用案例

Self-Supervised Detection of Contextual Synonyms in a Multi-Class Setting: Phenotype Annotation Use Case

Jingqing Zhang, Luis Bolanos, Tong Li, Ashwani Tanwar, Guilherme Freire...

TL;DR本研究提出了一个自我监督的预训练方法，利用浅层匹配的数据进行训练，能够检测出上下文同义词，该方法在稀疏多类设置（超过 15,000 个概念）中应用于从电子病历中提取表观信息，并通过数据增强技术解决类稀疏问题，实现了无监督表观概念注释的新 SOTA，精度和召回率的增益分别高达 4.5 和 4.0 个点，表明模型表现优异。经过少量标注数据的微调后，该模型在 BioBERT 和 ClinicalBERT 之上表现更出色，并且外部评估在三个 ICU 基准测试中也显示出使用我们的模型注释的表型作为特征的益处。

Abstract

contextualised word embeddings is a powerful tool to detect contextual synonyms. However, most of the current state-of-the-art (SOTA) deep learning →

contextualised word embeddings deep learning concept extraction phenotype information unsupervised learning

发现论文，激发创造

基于本体和弱监督的临床笔记罕见病识别

本文提出了一个基于本体和弱监督的方法，使用最近的 BERT 上下文表示进行文本表型处理，该方法可用于从临床笔记中识别出以往难以识别的罕见疾病的患者角色，无须领域专家的注释数据，可提高不少于 30% 至 50% 的精确度。

May, 2022

上下文提取式自监督学习

通过引入三种辅助预训练任务，从而以自监督的方式学习捕捉文档级上下文，进一步改善目前的提取式摘要模型，并在广泛使用的 CNN / DM 数据集上进行的实验验证了所提出的辅助任务的有效性。此外，我们显示出，在预训练后，一个由简单构建块组成的干净模型可以胜过之前精心设计的最先进模型。

Jun, 2019

基于上下文词嵌入的临床概念抽取

本研究提出一个基于领域特定词汇上下文嵌入的临床问题、治疗和测试自动标注临床笔记的模型，使用上下文嵌入模型训练一个双向 LSTM-CRF 模型用于临床概念提取，并在 I2B2 2010 挑战数据集上进行了测试，最终性能优于现有模型 3.4%。

Oct, 2018

利用自我监督方法增强语义理解，用于抽象对话摘要

本文介绍一种使用预处理的深度语境化文本编码器 BERT 来改善自然语言任务，包括抽象概括，并提出一种自我监督的方法来弥补对话概括模型的缺陷。在共享的编码器 - 解码器架构上构建和微调抽象对话概括模型，并在最近引入的 SAMSum 语料库中经验性地评估，证明我们的方法在抽象概括中做出了改进。

Sep, 2022

利用多段双向上下文匹配进行实体同义词发现

该论文提出了一种多环境下的同义词发现框架，使用分布式假设和神经网络模型 SYNONYMNET，从自由文本语料库中检测出实体的同义词，以提高实体消歧或知识图谱规范化等任务的效果和稳健性。

Dec, 2018

利用外部知识进行非监督的数值推理从临床文本中提取表型

利用 ClinicalBert 和外部知识的无监督方法，能够在临床文本中进行数值推理以提取表型，相比无监督基准测试，综合召回率和 F1 得分的绝对增益分别高达 79％和 71％，并且在监督学习情况下，性能也优于替代方法，综合召回率和 F1 得分的绝对增益分别高达 70％和 44％。

Apr, 2022

上下位关系预测的语境语义嵌入

本文介绍了一种基于 Bert 语言模型的子类预测方法 BERTSubs，能够有效地执行包括存在限制在内的多种子类预测任务，具有优于已有方法的性能。

Feb, 2022

上下文词嵌入的逐步语义权重训练

本研究提出一种新颖的在线算法，通过最小化上下文嵌入组内的距离来学习单词嵌入中每个维度的本质，以三种最先进的基于神经网络的语言模型 Flair、ELMo 和 BERT 生成上下文嵌入，为同一词汇类型生成不同的嵌入，这些嵌入由 SemCor 数据集手动标注的意义进行分组，结论表明本文提出的算法不会损伤性能，甚至能提高 3%，可以用于未来关于上下文嵌入可解释性的研究。

Nov, 2019

改进上下文化神经语言模型的临床笔记表型描述

通过对临床记录进行语义学分析，可以帮助精确地提取出患者的病情，进而为医疗决策和医疗档案二次利用提供支持；本研究探索了几种基于 BERT 模型的病情提取机制，避免了传统的手工规则的繁琐操作，实验结果表明这种机制在病情识别上具有较高的性能，可适用于医学领域的实际应用。

Oct, 2019

利用上下文嵌入增强临床概念抽取

本研究旨在研究新的语言表示方法（如 ELMo，BERT）在医疗概念提取方面的应用，比较这些方法与传统词嵌入方法（word2vec，GloVe，fastText）的性能表现，并探讨将这些表示方法应用于医疗任务的可能性。研究结果表明，基于大型医学语料库的上下文嵌入方法表现出色，优于现有所有方法。此外，与传统词表示相比，上下文嵌入方法还包含有价值的语义信息。

Feb, 2019