同义词边缘化的生物医学实体表示

ACLMay, 2020

同义词边缘化的生物医学实体表示

Biomedical Entity Representations with Synonym Marginalization

Mujeen Sung, Hwisang Jeon, Jinhyuk Lee, Jaewoo Kang

TL;DR本文基于实体的同义词提出一种模型，通过模型候选选择和无须对超过 400k 个负样本进行显式预选择，迭代更新不断提高负样本难度的方法来学习生物医学实体的表征。在四个不同的生物医学实体规范化数据集上，该模型 BioSyn 表现卓越，几乎达到每个数据集的上限。

Abstract

biomedical named entities often play important roles in many biomedical text mining tools. However, due to the incompleteness of provided synonyms and numerous variations in their surface forms, →

biomedical named entities normalization synonyms model-based candidate selection biosyn

发现论文，激发创造

基于字典为基础的同义词概括的生物医学命名实体识别

本研究提出了一种新的同义词泛化（SynGen）框架，使用基于跨度的预测识别输入文本中包含的生物医学概念。通过引入同义词距离正则化器和噪声扰动正则化器，该框架能够降低同义词泛化误差。本研究在多个基准测试中广泛评估了我们的方法，结果表明，SynGen 表现出比以前的基于字典的模型更优异的性能。

May, 2023

你的生物医学命名实体识别模型如何推广到新实体？

本文系统地分析了生物识别模型的三种识别能力：记忆，同义词泛化和概念泛化，并发现现有模型在识别同义词和新的生物概念方面存在局限性，这表明他们的泛化能力被高估了。作者调查了模型的失败案例，并确定了识别未见过的生物词汇的几个困难。最后，作者采用基于统计的去偏置方法作为简单的补救方法，显示出对未见过的提及的泛化改进。希望本文的分析和发现能够促进对 NER 模型泛化能力的进一步研究。

Jan, 2021

基于知识库指导的预训练和同义词感知微调的生成式生物医学实体链接

本文提出了一种新的方法来解决生物医学实体链接的问题，利用基于知识库的预训练和微调，以及多种类似词的构建方式来进行模型训练，这种方法在多项实验中都取得了最优结果。

Apr, 2022

高效的生物医学实体链接：低资源技术下的临床文本标准化

通过学习实体的同义词对，我们提出了一种用于临床文本标准化的方法，通过关联多个术语，从而显著减少训练数据和资源消耗，并引入了基于上下文和无上下文重排序技术进行实体消岐。在最大的 UMLS 标注数据集 Medmentions 上，我们的方法表现与现有的零样本和远程监督实体链接技术相当，在没有基于领域的训练的情况下。最后，我们证明了单纯的检索性能可能不足以作为评估指标，并引入了一种基于文章的定量和定性分析，揭示了实体链接方法的进一步洞察。

May, 2024

医学实体链接的轻量级神经模型

本研究提出了一种轻量级神经方法，利用对齐层和注意力机制来捕捉提到与实体的不同名称变化，以解决生物医学概念链接中同一实体具有各种名称变体的挑战，并且在标准评估基准上证明该模型表现竞争力。

Dec, 2020

基于双编码器的物种标准化 -- 用于排序的成对句子学习

提出了一种深度学习方法用于实体规范化，通过将其视为一种成对学习来排名问题，并利用最佳匹配信息检索算法和双向编码器表示从编码器 (BERT) 重新对候选列表进行排名，消除了特征工程和规则创建的需求，在物种规范化方面超过了现有方法。

Oct, 2023

基于 BERT 的生物医学实体标准化排名

本研究中，我们提出了一种实体归一化架构，通过微调预训练的 BERT/BioBERT/ClinicalBERT 模型，并使用三种不同类型的数据集进行了广泛的实验，评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明，最佳微调模型始终优于以前的方法，并提高了生物医学实体规范化的最新水平，精确度提高了高达 1.17％。

Aug, 2019

深度多任务学习的交叉类型生物医学命名实体识别

本文提出了一个多任务学习框架，可以用于对生物医学命名实体进行识别并提高性能。该模型在 15 个基准生物医学命名实体识别数据集上的实验表明，它比现有的命名实体识别系统和基线序列标注模型都要好，此外，性能提升大部分来源于在不同的标注数据之间共享生物医学实体相关的字符和单词级别的信息。

Jan, 2018

生物医学语言模型对次优分词具有鲁棒性

本研究探索了使用更准确的生物医学分词器训练生物医学语言模型是否可以提高实体表示质量，结果表明该方法并不能提高语言模型的表现。

Jun, 2023

使用知识优化生物医学预训练语言模型

提出 KeBioLM 这一生物医学语言 pretrained language model，该模型明确利用了来自 UMLS UMLS knowledge bases 知识库的知识，取得了名词实体识别和关系提取的不错效果。

Apr, 2021