基于双编码器的物种标准化--用于排序的成对句子学习

Oct, 2023

基于双编码器的物种标准化--用于排序的成对句子学习

Bi-Encoders based Species Normalization -- Pairwise Sentence Learning to Rank

Zainab Awan, Tim Kahlke, Peter Ralph, Paul Kennedy

TL;DR提出了一种深度学习方法用于实体规范化，通过将其视为一种成对学习来排名问题，并利用最佳匹配信息检索算法和双向编码器表示从编码器 (BERT) 重新对候选列表进行排名，消除了特征工程和规则创建的需求，在物种规范化方面超过了现有方法。

Abstract

Motivation: biomedical named-entity normalization involves connecting biomedical entities with distinct database identifiers in order to facilitate data integration across various fields of biology. Existing systems for biomedical →

发现论文，激发创造

NSEEN：面向实体归一化的神经语义嵌入

本研究基于深度单妻神经网络模型，将实体及其语法变化的语义信息嵌入到嵌入向量中，以实现对大型参考集的新实体实现快速映射，并在挑战性的生物实体规范化数据集中证明了框架的有效性。

Nov, 2018

基于BERT的生物医学实体标准化排名

本研究中，我们提出了一种实体归一化架构，通过微调预训练的BERT/BioBERT/ClinicalBERT模型，并使用三种不同类型的数据集进行了广泛的实验，评估了预训练模型用于生物医学实体归一化的有效性。我们的实验结果表明，最佳微调模型始终优于以前的方法，并提高了生物医学实体规范化的最新水平，精确度提高了高达1.17％。

Aug, 2019

BioFLAIR：用于生物医学序列标注任务的预训练聚合上下文化嵌入

研究比较FLAIR模型与其他模型（如BERT）在生物医学命名实体识别任务中的表现，发现FLAIR在提供的PubMed向量上表现良好，甚至在某些任务上超越了BERT，并且与其他模型叠加使用可以进一步提高结果。

Aug, 2019

同义词边缘化的生物医学实体表示

本文基于实体的同义词提出一种模型，通过模型候选选择和无须对超过 400k 个负样本进行显式预选择，迭代更新不断提高负样本难度的方法来学习生物医学实体的表征。在四个不同的生物医学实体规范化数据集上，该模型 BioSyn 表现卓越，几乎达到每个数据集的上限。

May, 2020

医学实体链接的轻量级神经模型

本研究提出了一种轻量级神经方法，利用对齐层和注意力机制来捕捉提到与实体的不同名称变化，以解决生物医学概念链接中同一实体具有各种名称变体的挑战，并且在标准评估基准上证明该模型表现竞争力。

Dec, 2020

BERN2：一种先进的神经生物医学实体识别和规范化工具

BERN2是一种用于生物医学实体识别和归一化的工具，采用多任务命名实体识别模型和神经网络归一化模型，能更快、更准确地进行推理，帮助构建生物医学知识图谱。

Jan, 2022

AIONER：基于深度学习的全能式方案的生物医学命名实体识别

本研究提出了一种使用外部标记资源来改善泛化能力的全新生物医学命名实体识别方案，基于深度学习的 AIONER 工具比多任务学习等现有方法更为有效、稳健，能够识别训练数据中未出现的实体类型，并具有大规模处理生物医学文本的优势。

Nov, 2022

xMEN：跨语言医学实体归一化的模块化工具包

通过xMEN系统，在多种语言中改善医疗实体的归一化性能，特别是当与英语相比，其他语言资源较少时。

Oct, 2023

通过多粒度嵌入和增强标注进行多级生物医学命名实体识别

本文提出了一种集成多种模型的混合方法，以解决生物医学实体识别中的局限性，并在i2b2/2010数据集上评估，得到了90.11的F1分数。

Dec, 2023

通用可扩展的多阶段生物医学概念标准化利用大型语言模型

通过使用专有和开源的大型语言模型（LLMs）与生物医学研究中常用的多种基于规则的归一化系统相结合，提高实体归一化性能并消除了需要微调的需要。

May, 2024